Las empresas tienen datos que suelen estar distribuidos en lagos, almacenes y marts de datos. Dataplex Universal Catalog es un tejido de datos que unifica los datos distribuidos y facilita la gobernanza de datos aplicando construcciones lógicas a diferentes recursos de datos.
Dataplex Universal Catalog abstrae los sistemas de almacenamiento de datos subyacentes mediante los siguientes elementos: lagos, zonas, recursos y entradas.
Lagos
Un lago es una estructura lógica que representa un dominio de datos o una unidad de negocio. Por ejemplo, para organizar los datos en función del uso de los grupos, puedes configurar un lake para cada departamento (por ejemplo, ventas, finanzas o comercio).
Zonas
Una zona es un subdominio de un lago, que resulta útil para clasificar los datos por lo siguiente:
- Fase: por ejemplo, datos de aterrizaje, sin procesar, analíticas de datos seleccionados y ciencia de datos seleccionados
- Uso: por ejemplo, contrato de datos
- Restricciones: por ejemplo, controles de seguridad y niveles de acceso de los usuarios
Hay dos tipos de zonas:
Zona sin procesar: contiene datos en su formato sin procesar y no está sujeta a comprobaciones de tipos estrictas.
Zona organizada: contiene datos limpios, formateados y listos para el análisis. Los datos están organizados en columnas, particionados por Hive y almacenados en archivos Parquet, Avro u Orc, o en tablas de BigQuery. Los datos se someten a una comprobación de tipos, por ejemplo, para prohibir el uso de archivos CSV porque no funcionan tan bien para el acceso SQL.
Recursos
Un recurso se asigna a los datos almacenados en Cloud Storage o en BigQuery. Puede asignar datos almacenados en proyectos de Google Cloud independientes como recursos a una sola zona.
Entradas
Una entidad representa metadatos de datos estructurados y semiestructurados (por ejemplo, una tabla) y datos sin estructurar (por ejemplo, un conjunto de archivos).
Siguientes pasos
- Organiza tus datos en lagos y zonas.
- Protege tu lago.
- Consulta los metadatos detectados mediante la Google Cloud consola.
- Consulta los metadatos detectados mediante la API.