En esta página, se presentan zonas y se explica cómo agregarlas a tu lake de Dataplex.
Conceptos de la zona de Dataplex
Las zonas de datos son entidades con nombre dentro de un lake de Dataplex. Son agrupaciones lógicas de datos no estructurados, semiestructurados y estructurados, que constan de varios elementos, como buckets de Cloud Storage, conjuntos de datos de BigQuery y tablas de BigQuery.
Un lake puede incluir una o más zonas. Si bien una zona solo puede ser parte de un lake, puede contener recursos que apuntan a recursos que forman parte de proyectos fuera de su proyecto superior.
Puedes seleccionar opciones de configuración para una zona en Dataplex. Existen dos tipos de zonas que puedes elegir: zonas sin procesar y seleccionadas.
Zonas sin procesar
Las zonas sin procesar almacenan datos estructurados, semiestructurados y no estructurados en cualquier formato de fuentes externas. Esto es útil para almacenar en etapa intermedia los datos sin procesar antes de realizar cualquier transformación. Los datos pueden almacenarse en buckets de Cloud Storage o conjuntos de datos de BigQuery.
Las zonas sin procesar admiten el nivel de detalle a nivel de bucket o de conjunto de datos para permisos de lectura y escritura. Para obtener más información, consulta IAM y control de acceso.
No hay restricciones sobre el tipo de datos que se pueden almacenar en las zonas sin procesar.
Zonas seleccionadas
Las zonas seleccionadas almacenan datos estructurados. Los datos pueden almacenarse en buckets de Cloud Storage o conjuntos de datos de BigQuery.
Entre los formatos compatibles para los buckets de Cloud Storage, se incluyen Parquet, Avro y ORC. Esto es útil a fin de almacenar datos que requieren procesamiento antes de usarse para el análisis o para entregar datos que estén listos para el análisis.
Para las tablas de BigQuery, debes tener un esquema bien definido y particiones de estilo Hive. Cuando proporcionas un esquema para una tabla determinada en una zona seleccionada, los datos deben cumplir con el esquema definido para la tabla sin desvío de esquema.
Esto significa que los datos deben ser compatibles con el esquema definido para la tabla y las particiones nuevas no deben tener un esquema que entre en conflicto con el esquema de la tabla.
Las zonas seleccionadas admiten el nivel de detalle a nivel de bucket de Cloud Storage o a nivel de conjunto de datos de BigQuery para los permisos de lectura y escritura. Para obtener más información, consulta Control de acceso con la IAM.
Antes de comenzar
Para poder agregar zonas a un lake, debes tener un lake. Si aún no lo has hecho, crea un lake.
La mayoría de los comandos gcloud lake
requiere una ubicación. Para especificar la ubicación, configura el parámetro --location
.
Control de acceso
- Para agregar una zona, debes tener funciones de IAM que contengan el permiso de IAM
dataplex.lakes.create
. La función específica de Dataplexroles/dataplex.admin
se puede usar para otorgar permisos add.
Para obtener más información, consulta Control de acceso de Dataplex con IAM.
Agrega una zona
Para crear y agregar una zona nueva a un lake existente, emite el
método de la API de Dataplex lakes.zones.create
o agrega una zona en la consola de Google Cloud.
Puedes agregar varias zonas a tu lake. Puedes agregar una zona a la vez, pero seguir utilizando tu lake mientras se crea la zona.
Consola
En la consola de Google Cloud, ve a Dataplex:
Navega a la vista Administrar.
En la vista Administrar, haz clic en el nombre del lake al que deseas agregar una zona.
En la pestaña Zonas, haz clic en
Agregar zona.Ingresa un Nombre visible para tu zona.
Haga clic en el menú desplegable Tipo. Elige Zona sin procesar o Zona seleccionada. Obtén más información sobre los tipos de zonas compatibles.
Ingresa una descripción (opcional).
En Ubicaciones de datos, selecciona Regional o Multirregional. Lo que elijas no se podrá cambiar más adelante. Los datos de una sola región y multirregionales no se pueden combinar en la misma zona.
Opcional: Habilita el descubrimiento de metadatos, que permite a Dataplex analizar y extraer automáticamente metadatos de los datos de tu zona:
Haz clic en Configuración de descubrimiento.
Asegúrate de que esté seleccionada la opción Habilitar el descubrimiento de metadatos.
Opcional: En Incluir patrones, enumera los archivos que se deben incluir en los análisis de descubrimiento.
Opcional: En Excluir patrones, enumera los archivos que se excluirán en los análisis de descubrimiento. Si ingresas los patrones de inclusión y de exclusión, se aplicarán primero los de exclusión.
Haga clic en el menú desplegable Se repite y seleccione una frecuencia.
Haga clic en el menú desplegable Zona horaria y seleccione una.
Si en Se repite seleccionaste Personalizado, en Programa, ingresa una programación de trabajos. De lo contrario, el valor Schedule se completa automáticamente.
Haz clic en Crear.
Es posible que la zona tarde algunos minutos en crearse.
REST
Sigue las instrucciones de la API para agregar una zona mediante el Explorador de API.
Cuando la zona se crea correctamente, entra automáticamente al estado activo. Si falla, entonces el lake se revierte a su estado anterior.
Después de crear la zona, puedes asignar los datos almacenados en los buckets de Cloud Storage y los conjuntos de datos de BigQuery como recursos en la zona.
Próximos pasos
- Obtén más información para administrar buckets.
- Obtén más información para crear un lake.
- Obtén más información sobre Cloud Audit Logs.