É possível usar o Dataplex Universal Catalog para criar uma arquitetura de malha de dados. Este início rápido mostra como usar os recursos do Dataplex Universal Catalog, como um lake, zonas e recursos, para criar uma malha de dados.
Uma malha de dados é uma abordagem organizacional e técnica que descentraliza a propriedade dos dados entre os proprietários de dados do domínio. Esses proprietários fornecem os dados como um produto de maneira padrão e facilitam a comunicação entre diferentes partes da organização para distribuir conjuntos de dados em diferentes locais. Saiba mais sobre as arquiteturas de malha de dados.
Criar um domínio
No console Google Cloud , acesse a página Lakes do Universal Catalog do Dataplex.
Clique em Criar para criar um novo data lake, que funciona como sua malha de dados.
No campo Nome de exibição, insira
My data mesh
.Em Região, selecione
us-central1
.Selecione o serviço do metastore do Dataproc que você criou e configurou anteriormente como o metastore associado.
Clique em Criar.
Criar zonas no lake
Depois de criar um domínio com um lake do Dataplex Universal Catalog, é possível hospedar contratos de dados gerenciados e equipes individuais no domínio usando zonas. Há dois tipos de zonas:
As zonas brutas são usadas normalmente para armazenar dados em qualquer formato de fontes externas no Cloud Storage. As zonas brutas são úteis para dados que exigem mais processamento antes de ficarem prontos para consumo.
As zonas selecionadas são usadas para dados estruturados no Cloud Storage que precisam estar em conformidade com determinados formatos de arquivo e são organizados em um layout de diretório compatível com o Hive. Eles são mais úteis para dados prontos para consumo e análise.
Cada domínio (por exemplo, sales
, customers
, products
) precisa ter pelo menos uma zona bruta e uma zona organizada.
Outras zonas são usadas para gerenciar contratos de dados entre equipes ou para fornecer uma análise mais detalhada para equipes em um determinado domínio. Por exemplo, gerenciamento de inventário no domínio do produto. Os proprietários de dados podem gerenciar e acessar os dados no domínio deles.
No console Google Cloud , navegue até a visualização Gerenciar do Dataplex Universal Catalog.
Clique no nome do lake (
My data mesh
) a que você quer adicionar uma zona.Na guia Zonas, clique em
Adicionar zona.No campo Nome de exibição, insira
My sub domain
. O Dataplex Universal Catalog gera automaticamente um ID para sua zona.Em Tipo, selecione Zona bruta.
Clique em Criar.
Vincular recursos às zonas
Vincule recursos de dados à sua zona. Um recurso de dados, os recursos de armazenamento que contêm seus dados, pode ser um bucket do Cloud Storage ou um conjunto de dados do BigQuery. Esta é a etapa final na criação da arquitetura de malha de dados.
Na visualização Gerenciar do Dataplex Universal Catalog, clique no lake que você criou (
My data mesh
).Na guia Zonas, clique na zona (
My sub domain
) em que você quer adicionar o recurso.Na guia Recursos, clique em
Adicionar recursos.Clique em Adicionar um recurso.
Em Tipo, selecione Bucket do Cloud Storage.
No campo Nome de exibição , insira
Data mesh asset
. O Dataplex Universal Catalog gera automaticamente um ID de recurso para você.No campo Bucket, clique em Procurar.
- Selecione o bucket na lista.
- Clique em Selecionar.
Clique em Concluído e em Continuar.
Clique em Continuar para aceitar as Configurações avançadas padrão.
Clique em Enviar.