En esta página, se presentan las zonas y se explica cómo agregarlas a tu lago de Dataplex.
Conceptos de la zona de Dataplex
Las zonas de datos son entidades con nombre dentro de un lake de Dataplex. Son agrupaciones lógicas de datos no estructurados, semiestructurados y estructurados, consta de varios recursos, como buckets de Cloud Storage, BigQuery conjuntos de datos y tablas de BigQuery.
Un lake puede incluir una o más zonas. Si bien una zona solo puede ser parte de un lago, puede contener recursos que apuntan a recursos que forman parte de proyectos fuera de su proyecto superior.
Puedes seleccionar parámetros de configuración para una zona en Dataplex. Existen hay dos tipos de zonas que puedes elegir: zonas sin procesar y seleccionadas.
Zonas sin procesar
Las zonas sin procesar almacenan datos estructurados, datos semiestructurados, como archivos CSV y archivos JSON, y datos no estructurados en cualquier formato de fuentes externas. Esto es útil para almacenar en etapa intermedia los datos sin procesar de datos. Los datos pueden almacenarse en buckets de Cloud Storage o conjuntos de datos de BigQuery.
Las zonas sin procesar admiten un nivel de detalle a nivel del bucket o del conjunto de datos para los permisos de lectura y escritura. Para obtener más información, consulta IAM y control de acceso.
No hay restricciones para el tipo de datos que se pueden almacenar en zonas sin procesar.
Zonas seleccionadas
Las zonas seleccionadas almacenan datos estructurados. Los datos se pueden almacenar en buckets de Cloud Storage o en conjuntos de datos de BigQuery.
Los formatos compatibles con los buckets de Cloud Storage incluyen Parquet, Avro y ORC. Esto es útil para la etapa de preparación de datos que requieren procesamiento antes de que se usen para el análisis o para la publicación de datos que están listos para el análisis.
Para las tablas de BigQuery, debes tener un esquema bien definido y Particiones de estilo Hive. Cuando proporcionas un esquema para una tabla determinada en una zona seleccionada, los datos deben cumplir con el esquema definido para la tabla sin derivación del esquema.
Esto significa que los datos deben ser compatibles con el esquema definido para la tabla, y las particiones nuevas no deberían tener un esquema entra en conflicto con el esquema de la tabla.
Las zonas seleccionadas admiten niveles de bucket de Cloud Storage Nivel de detalle a nivel de conjunto de datos de BigQuery para lectura y escritura permisos. Para obtener más información, consulta Control de acceso con la IAM.
Antes de comenzar
Antes de poder agregar zonas a un lake, debes tener un lake. Si aún no lo hiciste, crea un lake.
La mayoría de los comandos gcloud lake
requiere una ubicación. Puedes especificar la ubicación
configurando el parámetro --location
.
Control de acceso
- Para agregar una zona, debes tener funciones de IAM que contengan el permiso de IAM
dataplex.lakes.create
. Dataplex Se puede usar la función específicaroles/dataplex.admin
para otorgar permisos para agregar.
Para obtener más información, consulta Control de acceso de Dataplex con IAM.
Agrega una zona
Puedes crear y agregar una zona nueva a un lake existente emitiendo el método lakes.zones.create
de la API de Dataplex o agregando una zona en la consola de Google Cloud.
Puedes agregar varias zonas a tu lake. Puedes agregar una zona a la vez, pero puedes seguir usando tu lake mientras se crea la zona.
Console
En la consola de Google Cloud, ve a Dataplex:
Ve a la vista Administrar.
En la vista Administrar, haz clic en el nombre del lake al que deseas agregar una entrada. a la zona.
En la pestaña Zones, haga clic en
. Agrega una zona.Ingresa un Nombre visible para tu zona.
Haz clic en el menú desplegable Tipo. Elige Zona sin procesar o Zona seleccionada. Aprendizaje Obtén más información sobre los tipos de zonas compatibles.
Ingresa una descripción (opcional).
En Ubicaciones de datos, selecciona Regional o Multirregional. No podrás cambiar la opción que elijas más adelante. Los datos de una sola región y multirregionales no se pueden combinar en la misma zona.
Opcional: Habilita el descubrimiento de metadatos, que permite que Dataplex analize y extraiga metadatos automáticamente de los datos de tu zona:
Haz clic en Configuración de descubrimiento.
Asegúrate de que esté seleccionada la opción Enable metadata discovery.
Opcional: En Incluir patrones, enumera los archivos que se incluirán en los análisis de descubrimiento.
Opcional: En Patrones para excluir, enumera los archivos que se excluirán en los análisis de descubrimiento. Si ingresa patrones de inclusión y exclusión, los patrones se aplican primero.
Haz clic en el menú desplegable Repeticiones y selecciona una frecuencia.
Haz clic en el menú desplegable Zona horaria y selecciona una zona horaria.
Si en Repeticiones seleccionaste Personalizado, en Programa, ingresa lo siguiente: una programación de trabajo. De lo contrario, el valor de Programar se completará automáticamente.
Haz clic en Crear.
Es posible que la zona tarde unos minutos en crearse.
REST
Sigue las instrucciones de la API para agregar una zona mediante el Explorador de API.
Cuando la creación de la zona se realiza correctamente, esta ingresa automáticamente al estado activo. Si falla, el lago se revierte a su estado anterior.
Después de crear tu zona, puedes asignar datos almacenados en buckets de Cloud Storage y conjuntos de datos de BigQuery como recursos en tu zona.
Próximos pasos
- Obtén más información para administrar buckets.
- Obtén más información para crear un lago.
- Obtén más información sobre Cloud Audit Logs.