Crie uma malha de dados

Pode usar o Dataplex Universal Catalog para criar uma arquitetura de malha de dados. Este início rápido mostra-lhe como usar as funcionalidades do Dataplex Universal Catalog, como um lago, zonas e recursos, para criar uma malha de dados.

Uma malha de dados é uma abordagem organizacional e técnica que descentraliza a propriedade dos dados entre os proprietários de dados do domínio. Estes proprietários fornecem os dados como um produto de forma padrão e facilitam a comunicação entre as diferentes partes da organização para distribuir conjuntos de dados em diferentes localizações. Saiba mais sobre as arquiteturas de malha de dados.

Objetivos

Neste guia, usa as entidades do Dataplex Universal Catalog para criar uma arquitetura de malha de dados:

  • Crie um lake do Dataplex Universal Catalog que funcione como o domínio da sua malha de dados.
  • Adicione zonas ao seu lake que representam equipas individuais em cada domínio e forneça contratos de dados geridos.
  • Anexe recursos que sejam mapeados para dados armazenados no Cloud Storage.

Custos

Neste documento, usa os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custos com base na sua utilização projetada, use a calculadora de preços.

Os novos Google Cloud utilizadores podem ser elegíveis para uma avaliação gratuita.

Quando terminar as tarefas descritas neste documento, pode evitar a faturação contínua eliminando os recursos que criou. Para mais informações, consulte o artigo Limpe.

Antes de começar

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  2. Verify that billing is enabled for your Google Cloud project.

  3. Enable the Dataplex API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  4. Crie um serviço de Metastore do Dataproc.

Crie um contentor do Cloud Storage

Precisa de um contentor do Cloud Storage para armazenar os recursos de dados da sua malha de dados.

Para criar um contentor do Cloud Storage, siga as instruções em crie um contentor do Cloud Storage. Ao fazê-lo, tenha em atenção o seguinte:

  • Atribua um nome ao contentor.
  • Para Tipo de localização, escolha Região e selecione us-central1 (Iowa) no menu.

Crie um domínio

  1. Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.

    Aceda a Lagos

  2. Clique em Criar para criar um novo lago, que funciona como a sua malha de dados.

  3. No campo Nome a apresentar, introduza My data mesh.

  4. Para Região, selecione us-central1.

  5. Selecione o serviço Dataproc Metastore que criou e configurou anteriormente como o metastore associado.

  6. Clique em Criar.

Crie zonas no seu lago

Depois de criar um domínio através da criação de um lake do catálogo universal do Dataplex, pode alojar contratos de dados geridos e equipas individuais no domínio através de zonas. Existem dois tipos de zonas:

  • As zonas não processadas são normalmente usadas para armazenar dados em qualquer formato de origens externas no Cloud Storage. As zonas não processadas são úteis para dados que requerem processamento adicional antes de estarem prontos para consumo.

  • As zonas organizadas são usadas para dados estruturados no Cloud Storage que têm de estar em conformidade com determinados formatos de ficheiros e estão organizadas num esquema de diretórios compatível com o Hive. São mais úteis para dados que estão prontos para consumo e análise.

Cada domínio (por exemplo, sales, customers, products) deve ter, pelo menos, uma zona não processada e uma zona organizada.

As zonas adicionais são usadas para gerir contratos de dados entre equipas ou para fornecer uma discriminação mais detalhada para as equipas num determinado domínio. Por exemplo, gestão de inventário no domínio do produto. Os proprietários dos dados podem gerir os dados no respetivo domínio e aceder aos mesmos.

  1. Na Google Cloud consola, navegue para o Dataplex Universal Catalog vista Gerir.

  2. Clique no nome do lago (My data mesh) ao qual quer adicionar uma zona.

  3. No separador Zonas, clique em Adicionar zona.

  4. No campo Nome a apresentar, introduza My sub domain. O Dataplex Universal Catalog gera automaticamente um ID para a sua zona.

  5. Para Tipo, selecione Zona bruta.

  6. Clique em Criar.

Anexe recursos às suas zonas

Anexe recursos de dados à sua zona. Um recurso de dados, os recursos de armazenamento que contêm os seus dados, pode ser um contentor do Cloud Storage ou um conjunto de dados do BigQuery. Este é o passo final na criação da sua arquitetura de malha de dados.

  1. Na vista Gerir do Dataplex Universal Catalog, clique no lake que criou (My data mesh).

  2. No separador Zonas, clique na zona (My sub domain) à qual quer adicionar o recurso.

  3. No separador Recursos, clique em Adicionar recursos

  4. Clique em Adicionar um recurso.

  5. Para Tipo, selecione Contentor do Cloud Storage.

  6. No campo Nome a apresentar , introduza Data mesh asset. O Dataplex Universal Catalog gera automaticamente um ID do recurso para si.

  7. No campo Bucket, clique em Procurar.

    1. Selecione o seu contentor na lista.
    2. Clique em Selecionar.
  8. Clique em Concluído e, de seguida, em Continuar.

  9. Clique em Continuar para aceitar as Definições avançadas predefinidas.

  10. Clique em Enviar.

Limpar

Para evitar incorrer em custos na sua conta do Google Cloud pelos recursos usados neste tutorial, elimine o projeto que contém os recursos ou mantenha o projeto e elimine os recursos individuais.

Elimine o projeto

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Elimine a sua arquitetura de malha de dados

  1. Na Google Cloud consola, navegue para o Dataplex Universal Catalog vista Gerir.

  2. Para o lago que quer eliminar, clique em Ver mais e, de seguida, em Eliminar.

  3. Para confirmar a ação, introduza delete e clique em Eliminar lago.

O que se segue?