Las empresas tienen datos que, a menudo, se distribuyen en data lakes, almacenes de datos y data marts. Dataplex Universal Catalog es un tejido de datos que unifica los datos distribuidos y facilita la administración de datos aplicando construcciones lógicas a diferentes recursos de datos.
Dataplex Universal Catalog abstrae los sistemas de almacenamiento de datos subyacentes con los siguientes elementos: lakes, zonas, recursos y entradas.
Lakes
Un lake es una construcción lógica que representa un dominio de datos o una unidad de negocios. Por ejemplo, para organizar los datos según el uso del grupo, puedes configurar un lake para cada departamento (por ejemplo, venta minorista, ventas y finanzas).
Zonas
Una zona es un subdominio dentro de un lake, que es útil para categorizar los datos según lo siguiente:
- Etapa: Por ejemplo, datos de destino, sin procesar, seleccionados para el análisis y seleccionados para la ciencia de datos
- Uso: Por ejemplo, contrato de datos
- Restricciones: Por ejemplo, controles de seguridad y niveles de acceso de los usuarios
Existen dos tipos de zonas:
Zona de datos sin procesar: Contiene datos en su formato sin procesar y no está sujeta a verificaciones estrictas de tipos.
Zona de datos seleccionados: Contiene datos limpios, con formato y listos para el análisis. Los datos son columnares, están particionados por Hive y se almacenan en archivos Parquet, Avro, ORC o tablas de BigQuery. Los datos se someten a una verificación de tipo, por ejemplo, para prohibir el uso de archivos CSV porque no funcionan tan bien para el acceso a SQL.
Recursos
Un recurso se asigna a los datos almacenados en Cloud Storage o BigQuery. Puedes asignar los datos almacenados en proyectos Google Cloud separados como recursos en una sola zona.
Entradas
Una entidad representa metadatos para datos estructurados y semiestructurados (por ejemplo, una tabla) y datos no estructurados (por ejemplo, un conjunto de archivos).
¿Qué sigue?
- Organiza tus datos en lakes y zonas.
- Protege tu lake.
- Visualiza los metadatos descubiertos con la consola de Google Cloud .
- Consulta los metadatos descubiertos con la API.