Criar uma malha de dados


É possível usar o Dataplex para criar uma arquitetura de malha de dados. Neste guia, mostramos como usar os recursos do Dataplex, como um lake, zonas e recursos, para criar uma malha de dados.

Uma malha de dados é uma abordagem organizacional e técnica que descentraliza a propriedade de dados entre os proprietários de dados do domínio. Eles fornecem os dados como um produto de maneira padrão e facilitam a comunicação entre diferentes partes da organização para distribuir conjuntos de dados em diferentes locais. Saiba mais sobre arquiteturas de malha de dados.

Objetivos

Neste guia, você vai usar as entidades do Dataplex para criar uma arquitetura de malha de dados:

  • Crie um lake do Dataplex que vai atuar como o domínio da malha de dados.
  • Adicione zonas ao lake que vão representar equipes individuais dentro de cada domínio e fornecer contratos de dados gerenciados.
  • Anexe recursos mapeados a dados armazenados no Cloud Storage.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Ao concluir as tarefas descritas neste documento, é possível evitar o faturamento contínuo excluindo os recursos criados. Saiba mais em Limpeza.

Antes de começar

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Ative a API Dataplex.

    Ativar a API Dataplex

  4. Crie um serviço Metastore do Dataproc.

crie um bucket do Cloud Storage

Você precisa de um bucket do Cloud Storage para armazenar os recursos de dados da malha de dados.

Siga as etapas para criar um bucket do Cloud Storage.

  • Dê um nome ao bucket.
  • Em Tipo de local, escolha Região e selecione us-central1 (Iowa) no menu suspenso.

Criar um domínio

  1. No console do Google Cloud, acesse a página do Dataplex:

    Acessar o Dataplex

  2. Navegue até a visualização Gerenciar.

  3. Clique em Criar para criar um lake novo, que vai atuar como sua malha de dados.

  4. No campo Nome de exibição, insira My data mesh.

  5. Em Região, selecione us-central1.

  6. Selecione o serviço Dataproc Metastore que você criou e configurou anteriormente como o metastore associado.

  7. Clique em Criar.

Criar zonas no lake

Depois de criar um domínio criando um lake do Dataplex, é possível hospedar contratos de dados gerenciados e equipes individuais no domínio usando zonas. Há dois tipos de zonas:

  • As zonas brutas normalmente são usadas para armazenar dados em qualquer formato de fontes externas no Cloud Storage. As zonas brutas são úteis para dados que exigem mais processamento antes de estarem prontos para consumo.

  • As zonas selecionadas são usadas para dados estruturados no Cloud Storage que precisam estar em conformidade com determinados formatos de arquivo e são organizadas em um layout de diretório compatível com o Hive. Eles são mais úteis para dados prontos para consumo e análise.

Cada domínio (por exemplo, sales, customers e products) precisa ter pelo menos uma zona bruta e uma zona selecionada.

Zonas adicionais são usadas para gerenciar contratos de dados entre equipes ou fornecer um detalhamento mais granular das equipes em um determinado domínio. Por exemplo, gerenciamento de inventário no domínio do produto. Os proprietários de dados podem gerenciar os dados dentro de seu domínio e acessá-los.

  1. No Dataplex no Console do Google Cloud, navegue até a visualização Gerenciar.

  2. Clique no nome do lake (My data mesh) a que você quer adicionar uma zona.

  3. Na guia Zonas, clique em Adicionar Zona.

  4. No campo Nome de exibição, insira My sub domain. O Dataplex gera automaticamente um ID para sua zona.

    OBSERVAÇÃO: o nome da zona se torna o nome de um conjunto de dados do BigQuery. Portanto, todas as zonas hospedadas no mesmo projeto do Google Cloud precisam ter um ID exclusivo, mesmo que existam em lakes diferentes.

  5. Em Tipo, selecione Zona bruta.

  6. Clique em Criar.

Anexar recursos a suas zonas

Anexar recursos de dados à sua zona. Um recurso de dados, os recursos de armazenamento que contêm seus dados, pode ser um bucket do Cloud Storage ou um conjunto de dados do BigQuery. Esse é o passo final da criação da arquitetura de malha de dados.

  1. Na visualização Gerenciar do Dataplex, clique no lake que você criou (My data mesh).

  2. Na guia Zonas, clique na zona (My sub domain) onde você quer adicionar o recurso.

  3. Na guia Recursos, clique em Adicionar recursos.

  4. Clique em Adicionar um recurso.

  5. Em Tipo, selecione Bucket do Cloud Storage.

  6. No campo Nome de exibição , insira Data mesh asset. O Dataplex gera automaticamente um ID do recurso para você.

  7. No campo Bucket, clique em Procurar.

    1. Selecione seu bucket na lista.
    2. Clique em Selecionar.
  8. Clique em Concluído e em Continuar.

  9. Clique em Continuar para aceitar as Configurações avançadas padrão.

  10. Clique em Enviar para adicionar o bucket do Cloud Storage como um recurso de dados à zona.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Excluir o projeto

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Excluir a arquitetura de malha de dados

  1. No Dataplex no Console do Google Cloud, navegue até a visualização Gerenciar.

  2. No lake que você quer excluir, clique em Ver mais e, em seguida, clique em Excluir.

  3. Digite delete para confirmar a ação e clique em Excluir lake.

A seguir