Agrega una zona

En este documento, se describen qué son las zonas de Dataplex y cómo agregarlas a tu lake de Dataplex.

Descripción general

Las zonas de Dataplex son entidades con nombre dentro de un lake de Dataplex. Son agrupaciones lógicas de datos no estructurados, semiestructurados y estructurados, que consisten en varios recursos, como buckets de Cloud Storage, conjuntos de datos y tablas de BigQuery.

Un lago puede incluir una o más zonas. Si bien una zona solo puede ser parte de un lago, puede contener recursos que apuntan a recursos que forman parte de proyectos fuera de su proyecto superior.

Puedes seleccionar configuraciones para una zona en Dataplex. Puedes elegir entre dos tipos de zonas: sin procesar y seleccionadas.

Zonas sin procesar

Las zonas sin procesar almacenan datos estructurados, datos semiestructurados, como archivos CSV y JSON, y datos no estructurados en cualquier formato de fuentes externas. Las zonas sin procesar son útiles para crear una etapa de datos sin procesar antes de realizar cualquier transformación. Los datos se pueden almacenar en buckets de Cloud Storage o conjuntos de datos de BigQuery.

Las zonas sin procesar admiten un nivel de detalle a nivel del bucket o del conjunto de datos para los permisos de lectura y escritura. No hay restricciones sobre el tipo de datos que se pueden almacenar en las zonas sin procesar.

Zonas seleccionadas

Las zonas seleccionadas almacenan datos estructurados. Los datos se pueden almacenar en buckets de Cloud Storage o en conjuntos de datos de BigQuery.

Los formatos compatibles con los buckets de Cloud Storage incluyen Parquet, Avro y ORC. Las zonas seleccionadas son útiles para la etapa de pruebas de datos que requieren procesamiento antes de utilizarse para el análisis o para publicar datos que están listos para el análisis.

En el caso de las tablas de BigQuery, debes tener un esquema bien definido y particiones al estilo de Hive. Cuando proporcionas un esquema para una tabla determinada en una zona seleccionada, los datos deben cumplir con el esquema definido para la tabla sin derivación del esquema. Esto significa que los datos deben ser compatibles con el esquema definido para la tabla, y las particiones nuevas no deben tener un esquema que entre en conflicto con el esquema de la tabla.

Las zonas seleccionadas admiten granularidad a nivel del bucket de Cloud Storage o del conjunto de datos de BigQuery para los permisos de lectura y escritura.

Antes de comenzar

Para poder agregar zonas a un lake, debes tener uno. Si aún no lo hiciste, crea un lake.

La mayoría de los comandos gcloud lake requiere una ubicación. Puedes especificar la ubicación si configuras el parámetro --location.

Roles obligatorios

Para obtener el permiso que necesitas para agregar una zona, pídele a tu administrador que te otorgue el rol de IAM Administrador de Dataplex (roles/dataplex.admin) en el proyecto. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene el permiso dataplex.lakes.create, que se requiere para agregar una zona.

También puedes obtener este permiso con roles personalizados o con otros roles predefinidos.

Agrega una zona

Puedes agregar varias zonas a tu lake. Puedes agregar una zona a la vez, pero puedes seguir usando tu lake mientras se crea la zona.

Para agregar una zona a un lago existente, sigue estos pasos:

Console

  1. En la consola de Google Cloud, ve a Dataplex.

    Ir a Dataplex

  2. Navega a la vista Administrar.

  3. En la vista Administrar, haz clic en el nombre del lake al que deseas agregar una zona.

  4. En la pestaña Zonas, haz clic en Agregar zona.

  5. Ingresa un Nombre visible para tu zona.

  6. Haz clic en el menú Tipo. Elige Zona sin procesar o Zona seleccionada. Obtén más información sobre los tipos de zonas compatibles.

  7. Opcional: Ingresa una descripción.

  8. En Ubicaciones de datos, selecciona Regional o Multirregional. No podrás cambiar la opción que elijas más adelante. Los datos de una sola región y multirregionales no se pueden combinar en la misma zona.

  9. Opcional: Habilita el descubrimiento de metadatos, que permite que Dataplex analize y extraiga metadatos automáticamente de los datos de tu zona:

    1. Haz clic en Configuración de descubrimiento.

    2. Asegúrate de que esté seleccionada la opción Enable metadata discovery.

    3. Opcional: En Incluir patrones, enumera los archivos que se incluirán en los análisis de descubrimiento.

    4. Opcional: En Patrones para excluir, enumera los archivos que se excluirán en los análisis de descubrimiento. Si ingresas patrones de inclusión y exclusión, primero se aplican los patrones de exclusión.

    5. Haz clic en el menú Repetir y selecciona una frecuencia. Si seleccionas Personalizado, en el campo Programación, ingresa una programación de trabajos. De lo contrario, el valor de Programar se completará automáticamente.

    6. Haz clic en el menú Zona horaria y selecciona una zona horaria.

  10. Haz clic en Crear.

REST

Para agregar una zona, usa el método lakes.zones.create.

La zona puede tardar algunos minutos en crearse.

Cuando la creación de la zona se realiza correctamente, esta ingresa automáticamente al estado activo. Si falla, el lago se revierte a su estado anterior.

Después de crear tu zona, puedes asignar los datos almacenados en buckets de Cloud Storage y conjuntos de datos de BigQuery como recursos a tu zona. Para obtener más información, consulta Cómo agregar un recurso.

¿Qué sigue?