Criar um lake do Dataplex

Este documento descreve como criar um lago do Dataplex. É possível criar um lake em qualquer uma das regiões que oferecem suporte ao Dataplex.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

Controle de acesso

  1. Para criar e gerenciar seu lago, verifique se você tem as funções predefinidas roles/dataplex.admin ou roles/dataplex.editor concedidas. Para mais informações, consulte conceder um único papel.

  2. Para anexar um bucket do Cloud Storage de outro projeto ao seu lago de dados, conceda à conta de serviço do Dataplex uma função de administrador no bucket executando o seguinte comando:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Criar uma metastore

É possível acessar os metadados do Dataplex usando o Metastore do Hive nas consultas do Spark associando uma instância do serviço do Metastore do Dataproc ao lake do Dataplex. É necessário ter uma Metastore do Dataproc ativada pelo gRPC (versão 3.1.2 ou mais recente) associada ao lake do Dataplex.

  1. Crie um serviço Metastore do Dataproc.

  2. Configure a instância do serviço do Metastore do Dataproc para expor um endpoint gRPC (em vez do endpoint padrão do Metastore do Thrift):

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Acesse o endpoint do gRPC:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Criar um lake

Console

  1. No console do Google Cloud, acesse o Dataplex.

    Acesse o Dataplex.

  2. Acesse a visualização Gerenciar.

  3. Clique em Criar.

  4. Insira um Nome de exibição.

  5. O ID do lago é gerado automaticamente. Se preferir, você pode fornecer seu próprio documento de identificação. Consulte a Convenção de nomenclatura de recursos.

  6. Opcional: digite uma Descrição.

  7. Especifique a Região em que o lake será criado.

    Para lakes criados em uma determinada região (por exemplo, us-central1), você pode anexar dados de uma região (us-central1) e de várias regiões (us multi-region), dependendo das configurações de zona.

  8. Opcional: adicione rótulos ao lake.

  9. Opcional: na seção Metastore, clique no menu Serviço da metastore e selecione o serviço que você criou na seção Antes de começar.

  10. Clique em Criar.

gcloud

Para criar um lago, use o comando gcloud alpha dataplex lakes create:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Substitua:

  • LAKE: nome do novo lago
  • LOCATION: refere-se a uma região Google Cloud
  • k1=v1,k2=v2,k3=v3: rótulos usados (se houver)
  • METASTORE_SERVICE: o serviço do metastore do Dataproc, se criado

REST

Para criar um lago, use o método lakes.create.

A seguir