As empresas têm dados que são frequentemente distribuídos por data lakes, data warehouses e data marts. O Dataplex Universal Catalog é um tecido de dados que unifica os dados distribuídos e facilita a gestão de dados aplicando construções lógicas a diferentes recursos de dados.
O catálogo universal do Dataplex abstrai os sistemas de armazenamento de dados subjacentes através das seguintes construções: lagos, zonas, recursos e entradas.
Lagos
Um lago é uma construção lógica que representa um domínio de dados ou uma unidade empresarial. Por exemplo, para organizar os dados com base na utilização de grupos, pode configurar um lago para cada departamento (por exemplo, retalho, vendas, finanças).
Zonas
Uma zona é um subdomínio num lago, o que é útil para categorizar os dados pelo seguinte:
- Fase: por exemplo, aterragem, dados não processados, estatísticas de dados organizados e ciência de dados organizados
- Utilização: por exemplo, contrato de dados
- Restrições: por exemplo, controlos de segurança e níveis de acesso do utilizador
As zonas são de dois tipos:
Zona não processada: contém dados no formato não processado e não sujeitos a validação de tipos rigorosa.
Zona organizada: contém dados limpos, formatados e prontos para análise. Os dados são organizados em colunas, particionados no Hive e armazenados em ficheiros Parquet, Avro ou ORC, ou em tabelas do BigQuery. Os dados são sujeitos a verificação de tipo. Por exemplo, para proibir a utilização de ficheiros CSV porque não têm um desempenho tão bom para o acesso SQL.
Recursos
Um recurso é mapeado para dados armazenados no Cloud Storage ou no BigQuery. Pode mapear dados armazenados em Google Cloud projetos separados como recursos numa única zona.
Entradas
Uma entidade representa metadados para dados estruturados e semiestruturados (por exemplo, uma tabela) e dados não estruturados (por exemplo, um conjunto de ficheiros).
O que se segue?
- Organize os seus dados em lagos e zonas.
- Proteja o seu lago.
- Veja os metadados descobertos através da Google Cloud consola.
- Veja os metadados descobertos através da API.