Este documento descreve como criar um lago do Dataplex. É possível criar um lake em qualquer uma das regiões que oferecem suporte ao Dataplex.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
Controle de acesso
Para criar e gerenciar seu lago, verifique se você tem as funções predefinidas
roles/dataplex.admin
ouroles/dataplex.editor
concedidas. Para mais informações, consulte conceder um único papel.Para anexar um bucket do Cloud Storage de outro projeto ao seu lago de dados, conceda à conta de serviço do Dataplex uma função de administrador no bucket executando o seguinte comando:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Criar uma metastore
É possível acessar os metadados do Dataplex usando o Metastore do Hive nas consultas do Spark associando uma instância do serviço do Metastore do Dataproc ao lake do Dataplex. É necessário ter uma Metastore do Dataproc ativada pelo gRPC (versão 3.1.2 ou mais recente) associada ao lake do Dataplex.
Crie um serviço Metastore do Dataproc.
Configure a instância do serviço do Metastore do Dataproc para expor um endpoint gRPC (em vez do endpoint padrão do Metastore do Thrift):
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Acesse o endpoint do gRPC:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Criar um lake
Console
No console do Google Cloud, acesse o Dataplex.
Acesse a visualização Gerenciar.
Clique em
Criar.Insira um Nome de exibição.
O ID do lago é gerado automaticamente. Se preferir, você pode fornecer seu próprio documento de identificação. Consulte a Convenção de nomenclatura de recursos.
Opcional: digite uma Descrição.
Especifique a Região em que o lake será criado.
Para lakes criados em uma determinada região (por exemplo,
us-central1
), você pode anexar dados de uma região (us-central1
) e de várias regiões (us multi-region
), dependendo das configurações de zona.Opcional: adicione rótulos ao lake.
Opcional: na seção Metastore, clique no menu Serviço da metastore e selecione o serviço que você criou na seção Antes de começar.
Clique em Criar.
gcloud
Para criar um lago, use o comando gcloud alpha dataplex lakes create
:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Substitua:
LAKE
: nome do novo lagoLOCATION
: refere-se a uma região Google Cloudk1=v1,k2=v2,k3=v3
: rótulos usados (se houver)METASTORE_SERVICE
: o serviço do metastore do Dataproc, se criado
REST
Para criar um lago, use o método lakes.create.
A seguir
- Saiba como adicionar zonas a um lake.
- Saiba como anexar recursos a uma zona.
- Saiba como proteger seu lake.
- Saiba como gerenciar seu lago.