Criar um lake

Neste guia, mostramos como criar um lake do Dataplex usando o Console do Google Cloud, a CLI gcloud ou o método de API lakes.create.

É possível criar seu lake em qualquer uma das regiões que oferecem suporte ao Dataplex.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Ative as APIs Dataplex, Dataproc, Metastore do Dataproc, Data Catalog, BigQuery e Cloud Storage. .

    Ative as APIs

  5. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  6. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  7. Ative as APIs Dataplex, Dataproc, Metastore do Dataproc, Data Catalog, BigQuery e Cloud Storage. .

    Ative as APIs

Controle de acesso

  1. Verifique se os papéis predefinidos roles/dataplex.admin ou roles/dataplex.editor foram concedidos a você para criar e gerenciar o lake. Siga as etapas na documentação do IAM para conceder papéis.

  2. Para anexar um bucket do Cloud Storage de outro projeto ao seu lake, conceda à seguinte conta de serviço do Dataplex um papel de administrador no bucket executando o seguinte comando:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Criar um metastore

Acesse os metadados do Dataplex usando o Hive Metastore em consultas do Spark. Para isso, associe uma instância de serviço do Metastore do Dataproc ao Lago do Dataplex. É necessário ter um metastore do Dataproc ativado para gRPC (versão 3.1.2 ou mais recente) associado ao lago do Dataplex.

  1. Crie um serviço Metastore do Dataproc.

  2. Configure a instância de serviço do Dataproc Metastore para expor um endpoint gRPC (em vez do endpoint padrão do Metastore do Thrift). Execute a seguinte solicitação de API de atualização:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Veja o endpoint do gRPC. Execute este comando:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Criar um lake do Dataplex

As etapas a seguir mostram como criar um lake do Dataplex.

Console

  1. Acesse o Dataplex no console do Google Cloud.

    Acesse o Dataplex.

  2. Navegue até a visualização Gerenciar.

  3. Clique em Criar.

  4. Digite um Nome de exibição.

  5. O ID do lake é gerado automaticamente. Se preferir, você pode fornecer seu próprio ID. Consulte a Convenção de nomenclatura de recursos.

  6. Opcional: digite uma Descrição.

  7. Especifique a Região em que o lake será criado.

    Para lakes criados em uma determinada região (por exemplo, us-central1), os dados de uma única região (us-central1) e os dados de várias regiões (us multi-region) podem ser anexados, dependendo das configurações da zona.

  8. Opcional: adicione rótulos ao lake.

  9. Opcional: na seção Metastore, clique no menu suspenso Serviço Metastore e selecione o serviço criado na seção Antes de começar.

  10. Clique em Criar.

gcloud

Use o seguinte comando gcloud preview dataplex lake create para criar um lago:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Substitua:

  • LAKE: o nome do novo lake.
  • LOCATION: refere-se a uma região do Google Cloud.
  • k1=v1,k2=v2,k3=v3: os rótulos usados (se houver).
  • METASTORE_SERVICE: o serviço Metastore do Dataproc, se um tiver sido criado.

REST

Siga as instruções da API para criar um lake usando as APIs Explorer.

A seguir