Este guia mostra como criar um lago de dados do Dataplex usando o
console do Google Cloud, a CLI gcloud ou o método da API lakes.create
.
É possível criar o lake em qualquer uma das regiões que oferecem suporte ao Dataplex.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
Controle de acesso
Verifique se você tem as funções predefinidas
roles/dataplex.admin
ouroles/dataplex.editor
concedidas para criar e gerenciar seu lago de dados. Siga as etapas na documentação do IAM para concedendo papéis.Para anexar um bucket do Cloud Storage de outro projeto ao lake: conceda à conta de serviço do Dataplex a seguir administrador no bucket executando o seguinte comando:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Criar uma metastore
É possível acessar os metadados do Dataplex usando o metastore Hive no Spark consultas associando uma instância de serviço do Dataproc Metastore com sua do Dataplex. É necessário ter uma Metastore do Dataproc ativada pelo gRPC (versão 3.1.2 ou mais recente) associada ao lake do Dataplex.
Crie um serviço Metastore do Dataproc.
Configure a instância do serviço do Dataproc Metastore para expor um endpoint gRPC em vez do endpoint padrão do Thrift Metastore. Execute o seguinte solicitação de API de atualização:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Consultar o endpoint do gRPC. Execute este comando:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Criar um lake do Dataplex
As etapas a seguir mostram como criar um lake do Dataplex.
Console
Acesse o Dataplex no console do Google Cloud.
Acesse o Dataplex.
Navegue até a visualização Gerenciar.
Clique em
Criar.Digite um Nome de exibição.
O ID do lake é gerado automaticamente. Se preferir, você pode fornecer seu próprio documento de identificação. Consulte a Convenção de nomenclatura de recursos.
Opcional: digite uma Descrição.
Especifique a Região em que o lake será criado.
Para lakes criados em uma determinada região (por exemplo,
us-central1
), ambos dados de uma única região (us-central1
) e dados multirregionais (us multi-region
) podem ser anexados dependendo das configurações da zona.Opcional: adicione rótulos ao lake.
Opcional: na seção Metastore, clique no Serviço de metastore e selecione o serviço que você criou na seção Antes de começar nesta seção.
Clique em Criar.
gcloud
Use o comando gcloud preview dataplex lake create
a seguir para criar um
lago:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Substitua:
LAKE
: o nome do novo lago.LOCATION
: refere-se a uma região do Google Cloud.k1=v1,k2=v2,k3=v3
: os rótulos usados (se houver).METASTORE_SERVICE
: o serviço do metastore do Dataproc, caso tenha sido criado.
REST
Siga as instruções da API para criar um lago usando o APIs Explorer.
A seguir
- Saiba como organizar seus dados
em lakes e zonas.
- Adicione zonas ao lake.
- Anexe recursos às zonas.
- Saiba como proteger seu lake.
- Saiba como gerenciar seu lake.