Acerca de los lakes y las zonas

Las empresas tienen datos que, a menudo, se distribuyen en data lakes, almacenes de datos y data marts. Dataplex Universal Catalog es un tejido de datos que unifica los datos distribuidos y facilita la administración de datos aplicando construcciones lógicas a diferentes recursos de datos.

Dataplex Universal Catalog abstrae los sistemas de almacenamiento de datos subyacentes con los siguientes elementos: lakes, zonas, recursos y entradas.

Lakes

Un lake es una construcción lógica que representa un dominio de datos o una unidad de negocios. Por ejemplo, para organizar los datos según el uso del grupo, puedes configurar un lake para cada departamento (por ejemplo, venta minorista, ventas y finanzas).

Zonas

Una zona es un subdominio dentro de un lake, que es útil para categorizar los datos según lo siguiente:

  • Etapa: Por ejemplo, datos de destino, sin procesar, seleccionados para el análisis y seleccionados para la ciencia de datos
  • Uso: Por ejemplo, contrato de datos
  • Restricciones: Por ejemplo, controles de seguridad y niveles de acceso de los usuarios

Existen dos tipos de zonas:

  • Zona de datos sin procesar: Contiene datos en su formato sin procesar y no está sujeta a verificaciones estrictas de tipos.

  • Zona de datos seleccionados: Contiene datos limpios, con formato y listos para el análisis. Los datos son columnares, están particionados por Hive y se almacenan en archivos Parquet, Avro, ORC o tablas de BigQuery. Los datos se someten a una verificación de tipo, por ejemplo, para prohibir el uso de archivos CSV porque no funcionan tan bien para el acceso a SQL.

Recursos

Un recurso se asigna a los datos almacenados en Cloud Storage o BigQuery. Puedes asignar los datos almacenados en proyectos Google Cloud separados como recursos en una sola zona.

Entradas

Una entidad representa metadatos para datos estructurados y semiestructurados (por ejemplo, una tabla) y datos no estructurados (por ejemplo, un conjunto de archivos).

¿Qué sigue?