Sobre lakes e zonas

As empresas têm dados que geralmente são distribuídos em data lakes, data warehouses e data marts. O Dataplex Universal Catalog é uma malha de dados que unifica dados distribuídos e facilita a governança de dados aplicando construções lógicas a diferentes ativos de dados.

O Dataplex Universal Catalog abstrai os sistemas de armazenamento de dados subjacentes usando os seguintes elementos: lakes, zonas, recursos e entradas.

Lakes

Um lake é uma construção lógica que representa um domínio de dados ou uma unidade de negócios. Por exemplo, para organizar dados com base no uso do grupo, é possível configurar um lake para cada departamento (por exemplo, varejo, vendas, finanças).

Zonas

Uma zona é um subdomínio em um lake, útil para categorizar dados por:

  • Estágio: por exemplo, análise de dados de destino, brutos, selecionados e ciência de dados selecionados
  • Uso: por exemplo, contrato de dados
  • Restrições: por exemplo, controles de segurança e níveis de acesso do usuário

Há dois tipos de zonas:

  • Zona bruta: contém dados no formato bruto e não passa por uma verificação de tipo rigorosa.

  • Zona selecionada: contém dados limpos, formatados e prontos para análise. Os dados são colunares, particionados pelo Hive e armazenados em arquivos Parquet, Avro, Orc ou tabelas do BigQuery. Os dados passam por verificação de tipo. Por exemplo, para proibir o uso de arquivos CSV porque eles não têm um bom desempenho para acesso SQL.

Recursos

Um recurso é mapeado para dados armazenados no Cloud Storage ou no BigQuery. É possível mapear dados armazenados em projetos Google Cloud separados como recursos em uma única zona.

Entradas

Uma entidade representa metadados de dados estruturados e semiestruturados (por exemplo, tabela) e dados não estruturados (por exemplo, conjunto de arquivos).

A seguir