Agrega una zona

En esta página, se presentan las zonas y se explica cómo agregar zonas a tu dataplex lake.

Conceptos de la zona de Dataplex

Las zonas de datos son entidades con nombre dentro de un lake de Dataplex. Son grupos lógicos de datos no estructurados, semiestructurados y estructurados que constan de varios elementos, como buckets de Cloud Storage, conjuntos de datos de BigQuery y tablas de BigQuery.

Un lake puede incluir una o más zonas. Si bien una zona solo puede ser parte de un lago, puede contener elementos que apunten a recursos que forman parte de proyectos fuera de su proyecto superior.

Puedes seleccionar parámetros de configuración para una zona en Dataplex. Existen dos tipos de zonas entre las que puedes elegir: zonas sin procesar y seleccionadas.

Zonas sin procesar

Las zonas sin procesar almacenan datos estructurados, datos semiestructurados (como archivos CSV y archivos JSON) y datos no estructurados en cualquier formato de fuentes externas. Esto es útil para almacenar en etapa intermedia datos sin procesar antes de realizar transformaciones. Los datos se pueden almacenar en buckets de Cloud Storage o conjuntos de datos de BigQuery.

Las zonas sin procesar admiten el nivel de detalle de bucket o de conjunto de datos para los permisos de lectura y escritura. Para obtener más información, consulta IAM y control de acceso.

No hay restricciones para el tipo de datos que se pueden almacenar en zonas sin procesar.

Zonas seleccionadas

Las zonas seleccionadas almacenan datos estructurados. Los datos pueden almacenarse en buckets de Cloud Storage o conjuntos de datos de BigQuery.

Los formatos admitidos para los buckets de Cloud Storage incluyen Parquet, Avro y ORC. Esto es útil para almacenar en etapa intermedia datos que requieren procesamiento antes de usarlos en el análisis o entregar datos que estén listos para analizarse.

Para las tablas de BigQuery, debes tener un esquema bien definido y particiones estilo Hive. Cuando proporcionas un esquema para una tabla determinada en una zona seleccionada, los datos deben cumplir con el esquema definido para la tabla sin desvíos del esquema.

Esto significa que los datos deben ser compatibles con el esquema definido para la tabla, y las particiones nuevas no deben tener un esquema que entre en conflicto con el de la tabla.

Las zonas seleccionadas admiten el nivel de detalle del bucket de Cloud Storage o del conjunto de datos de BigQuery para los permisos de lectura y escritura. Para obtener más información, consulta Control de acceso con la IAM.

Antes de comenzar

Para poder agregar zonas a un lake, debes tener uno. Si aún no lo hiciste, crea un lake.

La mayoría de los comandos gcloud lake requiere una ubicación. Puedes especificar la ubicación si configuras el parámetro --location.

Control de acceso

  • Para agregar una zona, debes tener roles de IAM que contengan el permiso de IAM dataplex.lakes.create. El rol específico de Dataplex roles/dataplex.admin se puede usar para otorgar permisos de agregar.

Para obtener más información, consulta Control de acceso a Dataplex con IAM.

Agrega una zona

Para crear y agregar una zona nueva a un lake existente, emite el método de la API de Dataplex lakes.zones.create o agrega una zona en la consola de Google Cloud.

Puedes agregar varias zonas al lake. Puedes agregar una zona a la vez, pero seguir usando tu lake mientras se crea la zona.

Console

  1. En la consola de Google Cloud, ve a Dataplex:

    Ir a Dataplex

  2. Navega hasta la vista Administrar.

  3. En la vista Administrar, haz clic en el nombre del lake al que deseas agregar una zona.

  4. En la pestaña Zonas, haz clic en Agregar zona.

  5. Ingresa un Nombre visible para tu zona.

  6. Haz clic en el menú desplegable Tipo. Elige Zona sin procesar o Zona seleccionada. Obtén más información sobre los tipos de zonas compatibles.

  7. Opcional: Ingresa una descripción.

  8. En Ubicaciones de datos, selecciona Regional o Multirregional. La opción que elijas no se podrá cambiar más adelante. Los datos de una sola región y los multirregionales no se pueden combinar en la misma zona.

  9. Habilita el descubrimiento de metadatos para que Dataplex analice y extraiga metadatos automáticamente de los datos de tu zona (opcional):

    1. Haz clic en Configuración de detección.

    2. Asegúrate de que la opción Habilitar descubrimiento de metadatos esté seleccionada.

    3. Opcional: En Incluir patrones, enumera los archivos que se incluirán en los análisis de descubrimiento.

    4. Opcional: En Excluir patrones, enumera los archivos que se excluirán en los análisis de descubrimiento. Si ingresas patrones de inclusión y exclusión, primero se aplican los patrones de exclusión.

    5. Haz clic en el menú desplegable Se repite y selecciona una frecuencia.

    6. Haz clic en el menú desplegable Zona horaria y selecciona una zona horaria.

    7. Si en Repeticiones seleccionaste Personalizado, en Programación, ingresa una programación de trabajos. De lo contrario, el valor de Programa (Schedule) se completa automáticamente.

  10. Haz clic en Crear.

Es posible que la zona tarde unos minutos en crearse.

REST

Sigue las instrucciones de la API para agregar una zona con el Explorador de APIs.

Cuando se realiza correctamente la creación de la zona, esta entra en estado activo automáticamente. Si falla, el lake se revierte a su estado anterior.

Después de crear la zona, puedes asignar los datos almacenados en los buckets de Cloud Storage y en los conjuntos de datos de BigQuery como recursos en tu zona.

Próximos pasos