Prácticas recomendadas para Dataplex

En este documento, se proporciona orientación y prácticas recomendadas para usar Dataplex.

Elige un proyecto para tu lake

Cuando selecciones el proyecto en el que alojarás el lake, ten en cuenta los siguientes factores:

  • El proyecto debe pertenecer al mismo perímetro de los Controles del servicio de VPC que los datos destinados a estar dentro del lake.

  • La cuenta de servicio del lake requiere permisos de administrador en los buckets de Cloud Storage o en los conjuntos de datos de BigQuery. Dataplex crea tablas externas en BigQuery para las tablas de Cloud Storage. Dataplex también pone a disposición metadatos de tablas de BigQuery y tablas descubiertas en el bucket de Cloud Storage, en Dataproc Metastore. Dataproc Metastore se encuentra dentro del proyecto de data lake.

Configuración y limitaciones de Cloud Storage

  • Región: Dataplex admite buckets de una sola región y multirregionales en algunas regiones de Google Cloud.

  • Clase de almacenamiento: Se admiten los buckets de Cloud Storage de todas las clases de almacenamiento (Standard, Nearline, Coldline, Archive). Se pueden generar costos adicionales de recuperación de datos por acceder o analizar datos de Nearline, Coldline o Archive.

  • LCA de buckets: Dataplex solo admite buckets de Cloud Storage con controles de acceso uniformes. No se admiten controles de acceso detallados.

  • Pagos del solicitante: No se admiten los buckets de Cloud Storage con la función de Pagos del solicitante habilitada.

Orientación sobre seguridad y permisos

Dataplex requiere agregar las cuentas de servicio de Dataplex como una cuenta de servicio administrativa en conjuntos y buckets administrados.

Dataplex permite a los analistas acceder a buckets de Cloud Storage y conjuntos de datos de BigQuery. Para habilitar este acceso, Dataplex requiere que se agreguen las cuentas de servicio de Dataplex con controles administrativos a estos proyectos.

Para Discovery, Dataplex agrega la cuenta de servicio de Dataproc Metastore a los buckets de Cloud Storage. Si tienes tu propio clúster de Dataproc Metastore, es posible que desees hacer que el lake de Dataplex use tu servicio de Dataproc Metastore, que es una opción cuando creas tu lake.

Si eliges agregar un bucket de Cloud Storage con acceso detallado a un lake, Dataplex proporcionará acceso completo a ese bucket a través del lake porque los permisos de Dataplex se propagan a todos los objetos del bucket. Si necesitas acceso detallado, se recomienda que dividas los datos de tu bucket en varios.

¿Qué sigue?