Neste guia, mostramos como criar um lake do Dataplex usando o
Console do Google Cloud, a CLI gcloud ou o método de API lakes.create
.
É possível criar seu lake em qualquer uma das regiões que oferecem suporte ao Dataplex.
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs Dataplex, Dataproc, Metastore do Dataproc, Data Catalog, BigQuery e Cloud Storage. .
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs Dataplex, Dataproc, Metastore do Dataproc, Data Catalog, BigQuery e Cloud Storage. .
Controle de acesso
Verifique se os papéis predefinidos
roles/dataplex.admin
ouroles/dataplex.editor
foram concedidos a você para criar e gerenciar o lake. Siga as etapas na documentação do IAM para conceder papéis.Para anexar um bucket do Cloud Storage de outro projeto ao seu lake, conceda à seguinte conta de serviço do Dataplex um papel de administrador no bucket executando o seguinte comando:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Criar um metastore
Acesse os metadados do Dataplex usando o Hive Metastore em consultas do Spark. Para isso, associe uma instância de serviço do Metastore do Dataproc ao Lago do Dataplex. É necessário ter um metastore do Dataproc ativado para gRPC (versão 3.1.2 ou mais recente) associado ao lago do Dataplex.
Crie um serviço Metastore do Dataproc.
Configure a instância de serviço do Dataproc Metastore para expor um endpoint gRPC (em vez do endpoint padrão do Metastore do Thrift). Execute a seguinte solicitação de API de atualização:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Veja o endpoint do gRPC. Execute este comando:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Criar um lake do Dataplex
As etapas a seguir mostram como criar um lake do Dataplex.
Console
Acesse o Dataplex no console do Google Cloud.
Acesse o Dataplex.
Navegue até a visualização Gerenciar.
Clique em
Criar.Digite um Nome de exibição.
O ID do lake é gerado automaticamente. Se preferir, você pode fornecer seu próprio ID. Consulte a Convenção de nomenclatura de recursos.
Opcional: digite uma Descrição.
Especifique a Região em que o lake será criado.
Para lakes criados em uma determinada região (por exemplo,
us-central1
), os dados de uma única região (us-central1
) e os dados de várias regiões (us multi-region
) podem ser anexados, dependendo das configurações da zona.Opcional: adicione rótulos ao lake.
Opcional: na seção Metastore, clique no menu suspenso Serviço Metastore e selecione o serviço criado na seção Antes de começar.
Clique em Criar.
gcloud
Use o seguinte comando gcloud preview dataplex lake create
para criar um lago:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Substitua:
LAKE
: o nome do novo lake.LOCATION
: refere-se a uma região do Google Cloud.k1=v1,k2=v2,k3=v3
: os rótulos usados (se houver).METASTORE_SERVICE
: o serviço Metastore do Dataproc, se um tiver sido criado.
REST
Siga as instruções da API para criar um lake usando as APIs Explorer.
A seguir
- Saiba como organizar seus dados
em lakes e zonas.
- Adicione zonas ao lake.
- Anexe recursos às suas zonas.
- Saiba como proteger seu lake.
- Saiba como gerenciar seu lake.