Administra recursos de datos en un lake

En esta página, se explica cómo agregar, actualizar y quitar buckets de Cloud Storage y conjuntos de datos de BigQuery como recursos en zonas existentes de Dataplex.

Descripción general

Un recurso se asigna a los datos almacenados en Cloud Storage o BigQuery. Puedes asignar los datos almacenados en proyectos diferentes de Google Cloud como recursos a una sola zona dentro de un lake. Puedes adjuntar buckets de Cloud Storage existentes o conjuntos de datos de BigQuery para que se administren desde el lake.

Antes de comenzar

  • Si aún no lo hiciste, crea un lake y una zona en él.

  • La mayoría de los comandos gcloud lakes requiere una ubicación. Puedes especificar la ubicación con la marca --location.

Control de acceso

  • Para quitar recursos, otorga los roles de IAM que contienen los permisos de IAM dataplex.lakes.delete, dataplex.zones.delete o dataplex.assets.delete. Los roles roles/dataplex.admin y roles/dataplex.editor específicos de Dataplex se pueden usar para otorgar estos permisos.

  • Para agregar recursos, otorga los roles de IAM que contienen los permisos create - dataplex.lakes.create, dataplex.zones.create o dataplex.assets.create. Las funciones roles/dataplex.admin y roles/dataplex.editor contienen estos permisos.

  • También puedes otorgar permiso a usuarios o grupos con las funciones heredadas roles/owner y roles/editor.

  • Debes autorizar el servicio de Dataplex en los recursos que se adjunten al lake de Dataplex. La autorización se otorga de forma automática e implícita para los recursos del proyecto en el que se crea el lake. Para otros proyectos, autoriza el servicio de Dataplex en los recursos de forma explícita.

Para obtener más información, consulta IAM de Dataplex y control de acceso.

Otorga roles a los buckets de Cloud Storage

Para conectar un bucket de Cloud Storage desde otro proyecto al lake, debes otorgarle a la cuenta de servicio de Dataplex (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com, recuperada de la página de detalles del lake en la consola) el rol de la cuenta de servicio de Dataplex (roles/dataplex.serviceAgent) en el proyecto que contiene el bucket. Esta función proporciona al servicio de Dataplex la función de nivel de administrador de requisitos previos en el bucket para que los permisos se puedan establecer en el mismo bucket.

Otorga roles a los conjuntos de datos de BigQuery

Para adjuntar un conjunto de datos de BigQuery de otro proyecto al lake, debes otorgar a la cuenta de servicio de Dataplex, el rol de administrador de BigQuery en el conjunto de datos.

Consideraciones de los Controles del servicio de VPC

Dataplex no infringe los perímetros de los Controles del servicio de VPC. Antes de agregar un recurso al lake, asegúrate de que el bucket o el conjunto de datos subyacente esté en la misma red de Controles del servicio de VPC que el lake.

Para obtener más información, consulta Controles del servicio de VPC con Dataplex.

Agrega un recurso

Puedes agregar un bucket de Cloud Storage o un recurso de conjunto de datos de BigQuery si emites un método de la API de Dataplex lakes.zones.assets.create o agregas un bucket o un conjunto de datos en la página Zona de datos abierta en un navegador local.

Si no hay una superposición entre la región del lake de Dataplex y una de las regiones de los buckets de Cloud Storage, no puedes agregar el bucket a una zona del lake.

Para obtener más información sobre la región y ubicación de un recurso de Cloud Storage y cómo Dataplex controla la ubicación de un bucket cuando se crea el conjunto de datos de publicación, consulta Recursos regionales.

Console

  1. En la consola de Google Cloud, abre la página de Dataplex:

    Abre Dataplex en la consola de Google Cloud

  2. En la página Administrar, haz clic en el lake al que deseas agregar un bucket de Cloud Storage o un conjunto de datos de BigQuery. Se abrirá la página del lake.

    página de detalles del lake
  3. En la pestaña Zonas, haz clic en el nombre de la zona de datos a la que deseas agregar el recurso. Se abrirá la página Zona de datos correspondiente a esa zona de datos.

  4. En la pestaña Activos, haz clic en + Agregar activos. Se abrirá la página Agregar elementos.

  5. Haz clic en Add an Asset.

  6. En el campo Tipo, selecciona Conjunto de datos de BigQuery o Bucket de Cloud Storage.

  7. En el campo Nombre visible, ingresa un nombre para el recurso nuevo.

  8. En el campo ID, ingresa un ID único para el activo.

  9. Ingresa una Descripción (opcional).

  10. En el campo Conjunto de datos o Bucket (según el tipo de tu recurso), haz clic en Explorar para buscar y seleccionar tu bucket de Cloud Storage o conjunto de datos de BigQuery.

  11. Opcional: Si tu tipo de recurso es Bucket de Cloud Storage y si quieres que Dataplex administre el recurso, selecciona la casilla de verificación Actualizar a administrado. Si eliges esta opción, no tienes que actualizar el recurso por separado. Esta opción no está disponible para los conjuntos de datos de BigQuery.

  12. Haz clic en Continuar.

  13. Elige el resto de los valores de los parámetros. Para obtener más información sobre la configuración de seguridad, consulta Seguridad de Lake.

  14. Haz clic en Submit para agregar el recurso.

  15. Verifica que hayas regresado a la página de la zona de datos y que tu recurso nuevo aparezca en la lista de recursos.

REST

Sigue las instrucciones de la API para agregar un bucket con el Explorador de APIs.

Cuando la adición se realiza correctamente, la zona de datos entra en estado activo automáticamente. Si falla, la zona de datos se revierte a su estado en buen estado anterior.

Actualiza un recurso de bucket de Cloud Storage

Cuando agregas un recurso de tipo bucket de Cloud Storage, Dataplex publica automáticamente tablas externas de BigQuery para las tablas alojadas en el recurso.

Cuando actualizas un recurso de bucket de Cloud Storage, Dataplex quita las tablas externas adjuntas y crea tablas de BigLake. Las tablas de BigLake admiten una seguridad mejor detallada, incluido el nivel de fila, el nivel de columna y el enmascaramiento de datos dinámico.

Puedes actualizar un recurso de bucket de Cloud Storage en la consola de Google Cloud o emitiendo el Parche del método de la API de Dataplex.

Console

  1. En la consola de Google Cloud, abre la página de Dataplex:

    Ir a Dataplex

  2. En la página Administrar, haz clic en el nombre del lake. Se abrirá la página del lake.

  3. En la pestaña Zonas, haz clic en el nombre de la zona de datos. Se abrirá la página de la zona de datos.

  4. En la pestaña Recursos, haz clic en el nombre del recurso que deseas actualizar.

  5. Haz clic en Actualizar a Administrado.

REST

Sigue las instrucciones de la API para actualizar un recurso de bucket con Cloud Explorer.

Cambiar un recurso del bucket de Cloud Storage a una versión inferior

Cuando cambias un recurso del bucket de Cloud Storage a una versión inferior, Dataplex quita las tablas de BigLake adjuntas y crea tablas externas.

Puedes cambiar un recurso de bucket de Cloud Storage a una versión inferior en la consola de Google Cloud o emitir el Parche del método de la API de Dataplex, con el campo readAccessMode establecido en DIRECT en ResourceSpec.

Console

  1. En la consola de Google Cloud, abre la página de Dataplex:

    Ir a Dataplex

  2. En la página Administrar, haz clic en el nombre del lake. Se abrirá la página del lake.

  3. En la pestaña Zonas, haz clic en el nombre de la zona de datos. Se abrirá la página de la zona de datos.

  4. En la pestaña Recursos, haz clic en el nombre del recurso que deseas actualizar.

  5. Haz clic en Cambiar de la versión administrada a una versión inferior.

REST

Sigue las instrucciones de la API para cambiar un recurso del bucket a una versión inferior con Cloud Explorer. Asegúrate de establecer el campo readAccessMode como DIRECT en ResourceSpec.

Cómo quitar un recurso

Puedes quitar un bucket de Cloud Storage o un recurso de conjunto de datos de BigQuery en la consola de Google Cloud o emitiendo el método lakes.zones.assets.delete de la API de Dataplex. Quita el recurso de la zona de datos o del lake antes de adjuntarlo a uno diferente.

En las siguientes instrucciones, se muestra cómo quitar un recurso de Dataplex con la consola de Google Cloud o la API de Dataplex.

Console

  1. En la consola de Google Cloud, abre la página de Dataplex:

    Abre Dataplex en la consola de Google Cloud

  2. En la página Administrar, haz clic en el lake del que deseas quitar un bucket de Cloud Storage o un conjunto de datos de BigQuery. Se abrirá la página del lake.

    página de detalles del lake
  3. En la pestaña Zonas, haz clic en el nombre de la zona de datos de la que deseas quitar el bucket de Cloud Storage o el conjunto de datos de BigQuery. Se abrirá la página Zona de datos correspondiente a esa zona de datos.

  4. Para seleccionar el activo en la pestaña Assets, marca la casilla que se encuentra a la izquierda del nombre del recurso.

  5. Haz clic en Borrar recurso para quitarlo.

  6. En el diálogo, haz clic en Borrar para confirmar la desconexión.

REST

Sigue las instrucciones de la API para quitar un bucket con Cloud Explorer.

Próximos pasos