É possível usar o Dataplex para criar uma arquitetura de malha de dados. Neste guia, você vai aprender a usar os recursos do Dataplex, como um lake, zonas e recursos, para criar uma malha de dados.
Uma malha de dados é uma abordagem organizacional e técnica que descentraliza a propriedade dos dados entre os proprietários dos dados do domínio. Esses proprietários fornecem os dados como um produto de maneira padronizada e facilitam a comunicação entre diferentes partes da organização para distribuir conjuntos de dados em diferentes locais. Saiba mais sobre arquiteturas de malha de dados.
Objetivos
Neste guia, você usa as entidades do Dataplex para criar uma arquitetura de malha de dados:
- Crie um lake do Dataplex que funcione como o domínio da sua malha de dados.
- Adicione zonas ao lake que representam equipes individuais em cada domínio e fornecem contratos de dados gerenciados.
- Anexe recursos que são mapeados para dados armazenados no Cloud Storage.
Custos
Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:
Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.
Ao concluir as tarefas descritas neste documento, é possível evitar o faturamento contínuo excluindo os recursos criados. Saiba mais em Limpeza.
Antes de começar
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
Ative a API Dataplex.
Criar um bucket do Cloud Storage
É necessário ter um bucket do Cloud Storage para armazenar os recursos de dados da sua malha de dados.
Para criar um bucket do Cloud Storage, siga as instruções em Criar um bucket do Cloud Storage. Ao fazer isso, observe o seguinte:
- Nomeie seu bucket.
- Em Tipo de local, escolha Região e selecione us-central1 (Iowa) no menu.
Criar um domínio
No console do Google Cloud, acesse a página do Dataplex.
Acesse a visualização Gerenciar.
Clique em Criar para criar um novo lago, que funciona como sua malha de dados.
No campo Nome de exibição, insira
My data mesh
.Em Região, selecione
us-central1
.Selecione o serviço Metastore do Dataproc que você criou e configurou anteriormente como a metastore associada.
Clique em Criar.
Criar zonas no lake
Depois de criar um domínio com um lake do Dataplex, é possível hospedar contratos de dados gerenciados e equipes individuais no domínio usando zonas. Há dois tipos de zonas:
As zonas brutas geralmente são usadas para armazenar dados em qualquer formato de fontes externas no Cloud Storage. As zonas brutas são úteis para dados que exigem mais processamento antes de ficarem prontos para consumo.
As zonas selecionadas são usadas para dados estruturados no Cloud Storage que precisam estar em conformidade com determinados formatos de arquivo e são organizadas em um layout de diretório compatível com o Hive. Eles são mais úteis para dados que estão prontos para consumo e análise.
Cada domínio (por exemplo, sales
, customers
, products
) precisa ter pelo menos
uma zona bruta e uma zona selecionada.
As zonas adicionais são usadas para gerenciar contratos de dados entre equipes ou para fornecer uma decomposição mais detalhada para as equipes em um determinado domínio. Por exemplo, o gerenciamento de inventário no domínio do produto. Os proprietários de dados podem gerenciar e acessar os dados no domínio.
No console do Google Cloud, navegue até a visualização Gerenciar do Dataplex.
Clique no nome do lake (
My data mesh
) em que você quer adicionar uma zona.Na guia Zonas, clique em
Adicionar zona.No campo Nome de exibição, insira
My sub domain
. O Dataplex gera automaticamente um ID para sua zona.Em Tipo, selecione Zona bruta.
Clique em Criar.
Anexar recursos às suas zonas
Anexe recursos de dados à sua zona. Um recurso de dados, os recursos de armazenamento que contêm seus dados, pode ser um bucket do Cloud Storage ou um conjunto de dados do BigQuery. Esta é a etapa final para criar a arquitetura de malha de dados.
Na visualização Gerenciar do Dataplex, clique no lake que você criou (
My data mesh
).Na guia Zonas, clique na zona (
My sub domain
) para adicionar o recurso.Na guia Recursos, clique em
Adicionar recursos.Clique em Adicionar um recurso.
Em Tipo, selecione Bucket do Cloud Storage.
No campo Nome de exibição , insira
Data mesh asset
. O Dataplex gera automaticamente um ID de recurso para você.No campo Bucket, clique em Procurar.
- Selecione o bucket na lista.
- Clique em Selecionar.
Clique em Concluído e em Continuar.
Clique em Continuar para aceitar as Configurações avançadas padrão.
Clique em Enviar.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
Excluir o projeto
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Excluir a arquitetura da malha de dados
No console do Google Cloud, navegue até a visualização Gerenciar do Dataplex.
No lago que você quer excluir, clique em
Ver mais e em Excluir.Para confirmar a ação, digite
delete
e clique em Excluir lago.
A seguir
- Saiba mais sobre as tarefas de processamento de dados.
- Saiba como descobrir dados.
- Saiba como usar as tarefas de qualidade de dados