Administra recursos de datos en un lake

En esta página, se explica cómo agregar, actualizar y quitar buckets de Cloud Storage y conjuntos de datos de BigQuery como recursos en zonas de Dataplex existentes.

Descripción general

Un recurso se asigna a datos almacenados en Cloud Storage o BigQuery. Puedes asignar datos almacenados en proyectos Google Cloud separados como recursos a una sola zona dentro de un lago. Puedes conectar buckets de Cloud Storage o conjuntos de datos de BigQuery existentes para que se administren desde el lake.

Antes de comenzar

  • Si aún no lo hiciste, crea un lake y una zona en él.

  • La mayoría de los comandos gcloud lakes requiere una ubicación. Puedes especificar la ubicación mediante la marca --location.

Roles obligatorios

  • Para quitar recursos, otorga los roles de IAM que contengan los permisos dataplex.lakes.delete, dataplex.zones.delete o dataplex.assets.delete de IAM. Los roles específicos de roles/dataplex.admin y roles/dataplex.editor de Dataplex se pueden usar para otorgar estos permisos.

  • Para agregar recursos, otorga los roles de IAM que contengan los permisos create, dataplex.lakes.create, dataplex.zones.create o dataplex.assets.create. Los roles roles/dataplex.admin y roles/dataplex.editor contienen estos permisos.

  • También puedes otorgar permisos a usuarios o grupos mediante los roles heredados roles/owner y roles/editor.

  • Debes autorizar el servicio de Dataplex en los recursos que se adjuntan al lake de Dataplex. La autorización se otorga automáticamente y de forma implícita para los recursos del proyecto en el que se crea el lago. Para otros proyectos, autoriza el servicio de Dataplex en los recursos de forma explícita.

Para obtener más información, consulta IAM y control de acceso de Dataplex.

Otorga roles para los buckets de Cloud Storage

Para conectar un bucket de Cloud Storage de otro proyecto a tu lake, debes otorgarle a la cuenta de servicio de Dataplex (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com, que se recupera de la página de detalles del lake en la consola) el rol de cuenta de servicio de Dataplex (roles/dataplex.serviceAgent) en el proyecto que contiene el bucket. Este rol proporciona al servicio de Dataplex el rol de administrador a nivel del bucket para que se puedan establecer permisos en el bucket.

Otorga roles para conjuntos de datos de BigQuery

Para adjuntar un conjunto de datos de BigQuery de otro proyecto a tu lago, debes otorgarle a la cuenta de servicio de Dataplex el rol de administrador de BigQuery en el conjunto de datos.

Consideraciones sobre los Controles del servicio de VPC

Dataplex no incumple los perímetros de los Controles del servicio de VPC. Antes de añadir un activo al lago, asegúrate de que el bucket o el conjunto de datos subyacentes estén en la misma red de Controles del servicio de VPC que el lago.

Para obtener más información, consulta Controles del servicio de VPC con Dataplex.

Agrega un recurso

Si no hay coincidencias entre la región del lake de Dataplex y una de las regiones de los buckets de Cloud Storage, no puedes agregar el bucket a una zona de tu lake.

Para obtener más información sobre la ubicación de la región de un activo de Cloud Storage y cómo Dataplex controla la ubicación de un bucket cuando se crea el conjunto de datos de publicación, consulta Recursos regionales.

Para agregar un recurso, sigue estos pasos:

Console

  1. En la consola de Google Cloud, ve a la página de Dataplex.

    Ir a Dataplex

  2. En la página Administrar, haz clic en el lake al que deseas agregar un bucket de Cloud Storage o un conjunto de datos de BigQuery. Se abrirá la página del lago.

  3. En la pestaña Zonas, haz clic en el nombre de la zona de datos a la que deseas agregar el recurso. Se abrirá la página de la zona de datos correspondiente.

  4. En la pestaña Recursos, haz clic en + Agregar recursos. Se abrirá la página Agregar recursos.

  5. Haz clic en Agregar un recurso.

  6. En el campo Tipo, selecciona Conjunto de datos de BigQuery o Bucket de Cloud Storage.

  7. En el campo Nombre visible, ingresa un nombre para el activo nuevo.

  8. En el campo ID, ingresa un ID único para el activo.

  9. Ingresa una Descripción (opcional).

  10. En el campo Conjunto de datos o Bucket (según el tipo de activo), haz clic en Explorar para encontrar y seleccionar tu bucket de Cloud Storage o conjunto de datos de BigQuery.

  11. Opcional: Si el tipo de activo es Bucket de Cloud Storage y quieres que Dataplex lo administre, selecciona la casilla de verificación Upgrade to Managed. Si eliges esta opción, no necesitarás actualizar el activo por separado. Esta opción no está disponible para los conjuntos de datos de BigQuery.

  12. Haz clic en Continuar.

  13. Elige el resto de los valores de los parámetros. Para obtener más información sobre la configuración de seguridad, consulta Seguridad de Lake.

  14. Haz clic en Enviar.

  15. Verifica que regresaste a la página de zona de datos y que tu activo nuevo aparezca en la lista de activos.

REST

Para agregar un recurso, usa el método lakes.zones.assets.create.

Cuando la adición se realiza correctamente, la zona de datos ingresa automáticamente al estado activo. Si falla, la zona de datos se revierte a su estado correcto anterior.

Actualiza un activo de bucket de Cloud Storage

Cuando agregas un activo de tipo bucket de Cloud Storage, Dataplex publica automáticamente las tablas externas de BigQuery para las tablas alojadas en el activo.

Cuando actualizas un activo de bucket de Cloud Storage, Dataplex quita las tablas externas adjuntas y crea tablas de BigLake. Las tablas de BigLake admiten una mejor seguridad detallada, incluido el enmascaramiento de datos dinámico, a nivel de fila y de columna.

Para actualizar un recurso de bucket de Cloud Storage, sigue estos pasos:

Console

  1. En la consola de Google Cloud, ve a la página de Dataplex.

    Ir a Dataplex

  2. En la página Administrar, haz clic en el nombre del lake. Se abrirá la página del lago.

  3. En la pestaña Zonas, haz clic en el nombre de la zona de datos. Se abrirá la página de zona de datos.

  4. En la pestaña Assets, haz clic en el nombre del activo que deseas actualizar.

  5. Haz clic en Actualizar a administrado.

REST

Para actualizar un activo de bucket, usa el método lakes.zones.assets.patch.

Cómo cambiar a una versión inferior un activo de un bucket de Cloud Storage

Cuando rebajas la versión de un activo de bucket de Cloud Storage, Dataplex quita las tablas de BigLake adjuntas y crea tablas externas.

Console

  1. En la consola de Google Cloud, ve a la página de Dataplex.

    Ir a Dataplex

  2. En la página Administrar, haz clic en el nombre del lake. Se abrirá la página del lago.

  3. En la pestaña Zonas, haz clic en el nombre de la zona de datos. Se abrirá la página de zona de datos.

  4. En la pestaña Assets, haz clic en el nombre del activo que deseas actualizar.

  5. Haz clic en Cambiar a una versión inferior a la administrada.

REST

Para cambiar a una versión anterior un recurso de bucket, usa el método lakes.zones.assets.patch. Asegúrate de configurar el campo readAccessMode como DIRECT en ResourceSpec.

Cómo quitar un recurso

Quita el activo de la zona o el lago de datos antes de adjuntarlo a uno diferente.

Para quitar un recurso, sigue estos pasos:

Console

  1. En la consola de Google Cloud, ve a la página de Dataplex.

    Ir a Dataplex

  2. En la página Administrar, haz clic en el lago del que quieres quitar un bucket de Cloud Storage o un conjunto de datos de BigQuery. Se abrirá la página del lago correspondiente.

  3. En la pestaña Zonas, haz clic en el nombre de la zona de datos de la que quieres quitar el bucket de Cloud Storage o el conjunto de datos de BigQuery. Se abrirá la página de zona de datos de esa zona.

  4. En la pestaña Recursos, marca la casilla a la izquierda del nombre del activo para seleccionarlo.

  5. Haz clic en Borrar recurso.

  6. En el diálogo de confirmación, haz clic en Borrar.

REST

Para quitar un bucket, usa el método lakes.zones,assets.delete.

¿Qué sigue?