Acerca de los lagos y las zonas

Las empresas tienen datos que suelen estar distribuidos en lagos, almacenes y marts de datos. Dataplex Universal Catalog es un tejido de datos que unifica los datos distribuidos y facilita la gobernanza de datos aplicando construcciones lógicas a diferentes recursos de datos.

Dataplex Universal Catalog abstrae los sistemas de almacenamiento de datos subyacentes mediante los siguientes elementos: lagos, zonas, recursos y entradas.

Lagos

Un lago es una estructura lógica que representa un dominio de datos o una unidad de negocio. Por ejemplo, para organizar los datos en función del uso de los grupos, puedes configurar un lake para cada departamento (por ejemplo, ventas, finanzas o comercio).

Zonas

Una zona es un subdominio de un lago, que resulta útil para clasificar los datos por lo siguiente:

  • Fase: por ejemplo, datos de aterrizaje, sin procesar, analíticas de datos seleccionados y ciencia de datos seleccionados
  • Uso: por ejemplo, contrato de datos
  • Restricciones: por ejemplo, controles de seguridad y niveles de acceso de los usuarios

Hay dos tipos de zonas:

  • Zona sin procesar: contiene datos en su formato sin procesar y no está sujeta a comprobaciones de tipos estrictas.

  • Zona organizada: contiene datos limpios, formateados y listos para el análisis. Los datos están organizados en columnas, particionados por Hive y almacenados en archivos Parquet, Avro u Orc, o en tablas de BigQuery. Los datos se someten a una comprobación de tipos, por ejemplo, para prohibir el uso de archivos CSV porque no funcionan tan bien para el acceso SQL.

Recursos

Un recurso se asigna a los datos almacenados en Cloud Storage o en BigQuery. Puede asignar datos almacenados en proyectos de Google Cloud independientes como recursos a una sola zona.

Entradas

Una entidad representa metadatos de datos estructurados y semiestructurados (por ejemplo, una tabla) y datos sin estructurar (por ejemplo, un conjunto de archivos).

Siguientes pasos