As empresas têm dados que geralmente são distribuídos em data lakes, data warehouses e data marts. O Dataplex Universal Catalog é uma malha de dados que unifica dados distribuídos e facilita a governança de dados aplicando construções lógicas a diferentes ativos de dados.
O Dataplex Universal Catalog abstrai os sistemas de armazenamento de dados subjacentes usando os seguintes elementos: lakes, zonas, recursos e entradas.
Lakes
Um lake é uma construção lógica que representa um domínio de dados ou uma unidade de negócios. Por exemplo, para organizar dados com base no uso do grupo, é possível configurar um lake para cada departamento (por exemplo, varejo, vendas, finanças).
Zonas
Uma zona é um subdomínio em um lake, útil para categorizar dados por:
- Estágio: por exemplo, análise de dados de destino, brutos, selecionados e ciência de dados selecionados
- Uso: por exemplo, contrato de dados
- Restrições: por exemplo, controles de segurança e níveis de acesso do usuário
Há dois tipos de zonas:
Zona bruta: contém dados no formato bruto e não passa por uma verificação de tipo rigorosa.
Zona selecionada: contém dados limpos, formatados e prontos para análise. Os dados são colunares, particionados pelo Hive e armazenados em arquivos Parquet, Avro, Orc ou tabelas do BigQuery. Os dados passam por verificação de tipo. Por exemplo, para proibir o uso de arquivos CSV porque eles não têm um bom desempenho para acesso SQL.
Recursos
Um recurso é mapeado para dados armazenados no Cloud Storage ou no BigQuery. É possível mapear dados armazenados em projetos Google Cloud separados como recursos em uma única zona.
Entradas
Uma entidade representa metadados de dados estruturados e semiestruturados (por exemplo, tabela) e dados não estruturados (por exemplo, conjunto de arquivos).
A seguir
- Organize seus dados em lakes e zonas.
- Proteja seu lake.
- Confira os metadados descobertos usando o console Google Cloud .
- Ver os metadados descobertos usando a API.