Protege tu lake

El modelo de seguridad de Dataplex te permite administrar quién tiene acceso para realizar las siguientes tareas:

  • Administrar un lake (crear y adjuntar recursos, zonas y lagos adicionales)
  • Acceder a los datos conectados a un lake a través del recurso de asignación (recursos de Google Cloud, como buckets de Cloud Storage y conjuntos de datos de BigQuery)
  • Accede a los metadatos sobre los datos conectados a un lake

Un administrador de un lake controla el acceso a los recursos de Dataplex (lago, zona y recursos) otorgando los siguientes roles básicos y predefinidos.

Roles básicos

Rol Descripción
Visualizador de Dataplex
(roles/dataplex.viewer)
Poder ver (pero no editar) el lake y sus zonas y elementos configurados
Editor de Dataplex
(roles/dataplex.editor)
Capacidad de editar el lake. Puede crear y configurar lakes, zonas, recursos y tareas.
Administrador de Dataplex
(roles/dataplex.administrator)
Capacidad de administrar un lake por completo.
Desarrollador de Dataplex
(roles/dataplex.developer)
Capacidad de ejecutar cargas de trabajo de análisis de datos en un lake. *
* Si deseas consultar una tabla de BigQuery, necesitas permiso para ejecutar un trabajo de BigQuery. Configura este permiso en el proyecto al que deseas atribuir o cobrar por el gasto de procesamiento del trabajo. Para obtener más información, consulta Funciones y permisos predefinidos de BigQuery.
Para ejecutar un trabajo de Spark, crea clústeres de Dataproc y envía trabajos de Dataproc en el proyecto al que deseas atribuir el procesamiento.

Roles predefinidos

Google Cloud administra las siguientes funciones, que proporcionan acceso detallado a Dataplex.

Roles de metadatos

Los roles de metadatos permiten ver metadatos, como esquemas de tablas.

Rol Descripción
Escritor de metadatos de Dataplex
(roles/dataplex.metadataWriter)
Ser capaz de actualizar los metadatos de un recurso determinado
Lector de metadatos de Dataplex
(roles/dataplex.metadataReader)
Capacidad de leer los metadatos (por ejemplo, para consultar una tabla)

Roles de datos

Otorgar funciones de datos a una principal le permite leer o escribir datos en los recursos subyacentes a los que apuntan los recursos del lake.

Dataplex asigna sus funciones a las funciones de datos para cada recurso de almacenamiento subyacente (Cloud Storage, BigQuery).

Dataplex traduce y propaga las funciones de datos de Dataplex al recurso de almacenamiento subyacente, lo que establece las funciones correctas para cada recurso de almacenamiento. El beneficio es que puedes otorgar un solo rol de datos de Dataplex en la jerarquía del lake (por ejemplo, un lake) y Dataplex mantiene el acceso especificado a los datos en todos los recursos conectados a ese lake (por ejemplo, los recursos de las zonas subyacentes hacen referencia a los buckets de Cloud Storage y a los conjuntos de datos de BigQuery).

Por ejemplo, otorgar a una principal la función dataplex.dataWriter para un lake le otorga a la principal acceso de escritura a todos los datos dentro del lake, sus zonas subyacentes y elementos. Las funciones de acceso a datos otorgadas en un nivel inferior (zona) se heredan en la jerarquía del lake en los elementos subyacentes.

Rol Descripción
Lector de datos de Dataplex
(roles/dataplex.dataReader)
Capacidad para leer datos del almacenamiento conectado a los elementos, incluidos los buckets de almacenamiento y los conjuntos de datos de BigQuery (y sus contenidos). *
Escritor de datos de Dataplex
(roles/dataplex.dataWriter)
Capacidad de escribir en los recursos subyacentes a los que apunta el recurso. *
Propietario de datos de Dataplex
(roles/dataplex.dataOwner)
Otorga el rol de propietario a los recursos subyacentes, incluida la capacidad de administrar recursos secundarios. Por ejemplo, como propietario de los datos de un conjunto de datos de BigQuery, puedes administrar las tablas subyacentes.

Protege tu lake

Puedes proteger y administrar el acceso a tu lake y los datos adjuntos. En la consola de Google Cloud, usa cualquiera de las siguientes vistas:

  • La vista Administrar de Dataplex en la pestaña Permisos
  • La vista segura de Dataplex

Desde la vista Administrar

La pestaña Permisos te permite administrar todos los permisos de un recurso de lake y presenta una vista sin filtros de todos los permisos, incluidos los heredados.

Para proteger tu lake, sigue estos pasos:

  1. Ve a Dataplex en la consola de Google Cloud.

    Ir a Dataplex

  2. Navega hasta la vista Administrar.

  3. Haz clic en el nombre del lake que creaste.

  4. Haz clic en la pestaña Permisos.

  5. Haz clic en la pestaña Ver por roles.

  6. Haz clic en Agregar para agregar un rol nuevo. Agrega las funciones de lector de datos de Dataplex, escritor de datos y propietario de datos.

  7. Verifica que aparezcan las funciones Lector de datos de Dataplex, Escritor de datos y Propietario de datos.

Desde la vista Secure

La vista segura de Dataplex en la consola de Google Cloud proporciona lo siguiente:

  • Una vista sencilla y filtrable de solo los roles de Dataplex que se centran en un recurso específico.
  • Roles de datos separados de roles de recursos lake.
Ejemplo de permisos de datos que no se heredan de recursos de lake superiores
Figura 1: En este ejemplo de un lake, ambas principales tienen permisos de datos en el recurso denominado datos de Cloud Storage (datos de GCS). Estos permisos no se heredan de los recursos de lakes superiores.


Ejemplo de permisos que no se heredan de recursos de lake superiores
Figura 2: En este ejemplo, se muestra lo siguiente:
  1. Una cuenta de servicio que hereda el rol de administrador de Dataplex del proyecto.
  2. Principales (dirección de correo electrónico) que heredan los roles de Editor y Visualizador de Dataplex del proyecto. Estos son los roles que se aplican a todos los recursos.
  3. Una principal (dirección de correo electrónico) que hereda el rol de administrador de Dataplex del proyecto.

Administración de políticas

Después de especificar la política de seguridad, Dataplex propaga los permisos a las políticas de IAM de los recursos administrados.

La política de seguridad configurada a nivel del lake se propaga a todos los recursos que se administran dentro de ese lake. Dataplex proporciona el estado de propagación y visibilidad de estas propagaciones a gran escala en la pestaña Administrar > Permisos de Dataplex. Supervisa de forma continua los recursos administrados para detectar cualquier cambio en la política de IAM fuera de Dataplex.

Los usuarios que ya tienen permisos en un recurso los seguirán teniendo después de que un recurso se adjunte a un lake de Dataplex. Del mismo modo, las vinculaciones de funciones que no son de Dataplex que se crean o actualizan después de adjuntar el recurso a Dataplex permanecen iguales.

Establece políticas a nivel de columna, de fila y de tabla

Los elementos del bucket de Cloud Storage tienen tablas externas asociadas de BigQuery adjuntas.

Puedes actualizar un recurso de bucket de Cloud Storage, lo que significa que Dataplex quita las tablas externas adjuntas y adjunta las tablas de BigLake.

Puedes usar tablas de BigLake en lugar de tablas externas para brindarte un control de acceso detallado, incluidos los controles a nivel de fila, los controles a nivel de columna y el enmascaramiento de datos de columnas.

Seguridad de los metadatos

Los metadatos hacen referencia principalmente a la información del esquema asociado con los datos del usuario presentes en los recursos administrados por un lake.

Dataplex Discovery examina los datos de los recursos administrados y extrae información de esquemas tabulares. Estas tablas se publican en sistemas de BigQuery, Dataproc Metastore y Data Catalog.

BigQuery

Cada tabla descubierta tiene una tabla asociada registrada en BigQuery. Para cada zona, hay un conjunto de datos de BigQuery asociado en el que se registran todas las tablas externas asociadas con tablas descubiertas en esa zona de datos.

Las tablas alojadas en Cloud Storage detectadas se registran en el conjunto de datos creado para la zona.

Dataproc Metastore

Las bases de datos y las tablas están disponibles en Dataproc Metastore asociada con la instancia de lake de Dataplex. Cada zona de datos tiene una base de datos asociada, y cada elemento puede tener una o más tablas asociadas.

Para proteger los datos en un servicio de Dataproc Metastore, se configura la red de VPC-SC. La instancia de Dataproc Metastore se proporciona a Dataplex durante la creación del lake, lo que ya la convierte en un recurso administrado por el usuario.

Data Catalog

Cada tabla descubierta tiene una entrada asociada en Data Catalog para habilitar la búsqueda y el descubrimiento.

Dado que Data Catalog requiere nombres de políticas de IAM durante la creación de la entrada, Dataplex proporciona el nombre de la política de IAM del recurso de recursos de Dataplex con el que se debe asociar la entrada. Como resultado, los permisos en la entrada de Dataplex se controlan con los permisos en el recurso de recursos. Otorga el rol de lector de metadatos de Dataplex (roles/dataplex.metadataReader) y de escritor de metadatos de Dataplex (roles/dataplex.metadataWriter) en el recurso del recurso.

Próximos pasos