Criar um lake

Este guia mostra como criar um lago de dados do Dataplex usando o console do Google Cloud, a CLI gcloud ou o método da API lakes.create.

É possível criar o lake em qualquer uma das regiões que oferecem suporte ao Dataplex.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

Controle de acesso

  1. Verifique se você tem as funções predefinidas roles/dataplex.admin ou roles/dataplex.editor concedidas para criar e gerenciar seu lago de dados. Siga as etapas na documentação do IAM para concedendo papéis.

  2. Para anexar um bucket do Cloud Storage de outro projeto ao lake: conceda à conta de serviço do Dataplex a seguir administrador no bucket executando o seguinte comando:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Criar uma metastore

É possível acessar os metadados do Dataplex usando o metastore Hive no Spark consultas associando uma instância de serviço do Dataproc Metastore com sua do Dataplex. É necessário ter uma Metastore do Dataproc ativada pelo gRPC (versão 3.1.2 ou mais recente) associada ao lake do Dataplex.

  1. Crie um serviço Metastore do Dataproc.

  2. Configure a instância do serviço do Dataproc Metastore para expor um endpoint gRPC em vez do endpoint padrão do Thrift Metastore. Execute o seguinte solicitação de API de atualização:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Consultar o endpoint do gRPC. Execute este comando:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Criar um lake do Dataplex

As etapas a seguir mostram como criar um lake do Dataplex.

Console

  1. Acesse o Dataplex no console do Google Cloud.

    Acesse o Dataplex.

  2. Navegue até a visualização Gerenciar.

  3. Clique em Criar.

  4. Digite um Nome de exibição.

  5. O ID do lake é gerado automaticamente. Se preferir, você pode fornecer seu próprio documento de identificação. Consulte a Convenção de nomenclatura de recursos.

  6. Opcional: digite uma Descrição.

  7. Especifique a Região em que o lake será criado.

    Para lakes criados em uma determinada região (por exemplo, us-central1), ambos dados de uma única região (us-central1) e dados multirregionais (us multi-region) podem ser anexados dependendo das configurações da zona.

  8. Opcional: adicione rótulos ao lake.

  9. Opcional: na seção Metastore, clique no Serviço de metastore e selecione o serviço que você criou na seção Antes de começar nesta seção.

  10. Clique em Criar.

gcloud

Use o comando gcloud preview dataplex lake create a seguir para criar um lago:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Substitua:

  • LAKE: o nome do novo lago.
  • LOCATION: refere-se a uma região do Google Cloud.
  • k1=v1,k2=v2,k3=v3: os rótulos usados (se houver).
  • METASTORE_SERVICE: o serviço do metastore do Dataproc, caso tenha sido criado.

REST

Siga as instruções da API para criar um lago usando o APIs Explorer.

A seguir