Este documento descreve como criar um lake do Dataplex Universal Catalog. Pode criar um lago em qualquer uma das regiões que suportam o catálogo universal do Dataplex.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. Para criar e gerir o seu lake, certifique-se de que tem as funções predefinidas
roles/dataplex.admin
ouroles/dataplex.editor
concedidas. Para mais informações, consulte o artigo conceda uma única função.Para anexar um contentor do Cloud Storage de outro projeto ao seu lake, conceda à conta de serviço do catálogo universal do Dataplex a função de administrador no contentor executando o seguinte comando:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Crie um serviço de Dataproc Metastore.
Configure a instância de serviço do Dataproc Metastore para expor um endpoint gRPC (em vez do endpoint Thrift Metastore predefinido):
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Veja o ponto final gRPC:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.
Clique em
Criar.Introduza um Nome a apresentar.
O ID do lago é gerado automaticamente. Se preferir, pode indicar o seu próprio ID. Consulte a Convenção de nomenclatura de recursos.
Opcional: introduza uma Descrição.
Especifique a região na qual criar o lago.
Para lagos criados numa determinada região (por exemplo,
us-central1
), pode anexar dados de região única (us-central1
) e dados de várias regiões (us multi-region
), consoante as definições de zona.Opcional: adicione etiquetas ao seu lago.
Opcional: na secção Metastore, clique no menu Serviço de metastore e selecione o serviço que criou na secção Antes de começar.
Clique em Criar.
LAKE
: nome do novo lagoLOCATION
: refere-se a uma Google Cloud regiãok1=v1,k2=v2,k3=v3
: etiquetas usadas (se aplicável)METASTORE_SERVICE
: o serviço de Metastore do Dataproc, se tiver sido criado- Saiba como adicionar zonas a um lago.
- Saiba como anexar recursos a uma zona.
- Saiba como proteger o seu lago.
- Saiba como gerir o seu lago.
Controlo de acesso
Crie um metastore
Pode aceder aos metadados do Dataplex Universal Catalog através do Hive Metastore em consultas do Spark associando uma instância de serviço do Dataproc Metastore ao seu lake do Dataplex Universal Catalog. Tem de ter um Dataproc Metastore com gRPC ativado (versão 3.1.2 ou superior) associado ao lake do Dataplex Universal Catalog.
Crie um lago
Consola
gcloud
Para criar um lago, use o comando gcloud alpha dataplex lakes create
:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Substitua o seguinte:
REST
Para criar um lago, use o método lakes.create.