Prácticas recomendadas para Dataplex

Este documento ofrece orientación y prácticas recomendadas para usar Dataplex

Elige un proyecto para tu lake

Cuando selecciones el proyecto en el que alojarás el lake, ten en cuenta lo siguiente: factores:

  • El proyecto debe pertenecer a la misma Perímetro de los Controles del servicio de VPC que los datos destinados a estar dentro del lake.

  • La cuenta de servicio del lake requiere permisos de administrador en la buckets de Cloud Storage o conjuntos de datos de BigQuery. Dataplex crea tablas externas en BigQuery para tablas descubiertas en Cloud Storage. Dataplex también facilita los metadatos de tablas de BigQuery disponibles y las tablas descubiertas en la bucket de Cloud Storage, en Dataproc Metastore. El Dataproc Metastore se encuentra dentro del proyecto de data lake.

Configuración y limitaciones de Cloud Storage

  • Región: Dataplex admite una sola región y buckets multirregionales en algunas regiones de Google Cloud.

  • Clase de almacenamiento: todos los buckets de Cloud Storage clases de almacenamiento son compatibles (Standard, Nearline, Coldline, Archive). Se pueden generar costos adicionales de recuperación de datos por acceder o analizar Datos de Nearline, Coldline o Archive.

  • LCA de buckets: Dataplex admite buckets de Cloud Storage con controles de acceso uniformes únicamente. No se admiten controles de acceso detallados.

  • Pagos del solicitante: los buckets de Cloud Storage con el La función de Pagos del solicitante habilitada tiene las siguientes características: no es compatible.

Orientación sobre seguridad y permisos

Dataplex requiere agregar Dataplex cuentas de servicio como una cuenta de servicio administrativa en buckets y conjuntos de datos administrados.

Dataplex permite a los analistas acceder a buckets de Cloud Storage y conjuntos de datos de BigQuery en muchos proyectos. Para habilitar este acceso, Dataplex requiere agregar el servicio de Dataplex con controles administrativos para estos proyectos.

Para Discovery, Dataplex agrega el Cuenta de servicio de Dataproc Metastore a Cloud Storage buckets. Si tienes tu propio clúster de Dataproc Metastore, puedes es posible que quieras hacer que el lake de Dataplex use servicio de Dataproc Metastore, que es una opción cuando creas tu lake.

Si decides agregar un bucket de Cloud Storage con acceso preciso a un lake Dataplex proporcionará acceso completo a ese bucket a través del lake. porque los permisos de Dataplex se propagan a todos los objetos bucket. Si necesitas un acceso detallado, se recomienda dividir los datos en varios buckets.

¿Qué sigue?