É possível criar um cluster do Dataproc usando a ferramenta de linha de comando gcloud do SDK do Cloud, a API Dataproc ou o Console do Google Cloud. Também é possível criar clusters de maneira programática usando as bibliotecas de cliente do Cloud.
Nome do cluster: o cluster precisa começar com uma letra minúscula seguida de até 54 letras minúsculas, números ou hifens, mas não pode terminar com um hífen.
Região do cluster: é possível especificar uma região global
ou uma região específica para o cluster. A região global é um endpoint de várias regiões especial capaz de implantar instâncias em qualquer zona do Compute Engine especificada pelo usuário.
Também especifique regiões distintas, como us-east1
ou europe-west1
, para isolar recursos, inclusive instâncias de VM e do Cloud Storage, e locais para armazenamento de metadados utilizados pelo Cloud Dataproc dentro da região especificada pelo usuário.
Consulte Endpoints regionais para saber mais sobre a diferença entre os endpoints globais e regionais. Consulte informações sobre a seleção de uma região em Regiões e zonas disponíveis. Você também pode executar o comando gcloud compute regions list
para ver uma lista de regiões disponíveis.
As instâncias de máquina virtual do Compute Engine (VMs) em um cluster do Dataproc, que consistem em VMs mestras e workers, exigem acesso de rede IP interno completo entre si. A rede default
,
que está disponível para criar um cluster, ajuda a garantir esse acesso. Para informações sobre como criar sua própria rede para o cluster do Dataproc, consulte Configuração de rede de um cluster do Dataproc.
Como criar um cluster do Dataproc
gcloud
Para criar um cluster do Dataproc na linha de comando, execute o comando gcloud dataproc clusters create do SDK do Cloud localmente em uma janela de terminal ou no Cloud Shell.
gcloud dataproc clusters create cluster-name \ --region=region
O comando acima cria um cluster com configurações padrão do serviço do Dataproc para as instâncias mestre e de trabalho da máquina virtual, além de tamanhos e tipos de disco, tipo de rede, região e zona onde o cluster está implantado e outras configurações do cluster. Consulte o comando gcloud dataproc clusters create para ver informações sobre como usar sinalizações da linha de comando a fim de personalizar configurações do cluster.
Criar um cluster com um arquivo YAML
- Execute o comando
gcloud
a seguir para exportar a configuração de um cluster do Dataproc existente para um arquivo YAML.gcloud dataproc clusters export my-existing-cluster --destination cluster.yaml
- Crie um novo cluster importando a configuração do arquivo YAML.
gcloud dataproc clusters import my-new-cluster --source cluster.yaml
Observação: durante a operação de exportação, os campos específicos do cluster, como o nome do cluster, os campos somente saída e os rótulos aplicados automaticamente são filtrados. Esses campos não são permitidos no arquivo YAML importado usado para criar um cluster.
REST e LINHA DE CMD
Nesta seção, mostramos como criar um cluster com valores obrigatórios e a configuração padrão (1 mestre, 2 workers).
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- project-id: ID de projeto do GCP.
- region: região do cluster
- clusterName: nome do cluster
Método HTTP e URL:
POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters
Corpo JSON da solicitação:
{ "clusterName": "cluster-name", "config": {} }
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{ "name": "projects/project-id/regions/region/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "cluster-name", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
Console
Abra a página Criar um cluster do Dataproc no Console do Cloud no navegador. O painel "Configurar cluster" é selecionado com campos preenchidos com valores padrão. É possível selecionar cada painel e confirmar ou alterar os valores padrão para personalizar o cluster.
Clique em CRIAR para criar o cluster. O nome do cluster é exibido na página Clusters e o status é atualizado para "Em execução" depois que o cluster é provisionado. Clique no nome do cluster para abrir a página de detalhes do cluster, em que você pode examinar jobs, instâncias e configurações do cluster, além de se conectar às interfaces da Web em execução no cluster.
Go
Java
Node.js
- Instalar a biblioteca cliente
- Configurar as credenciais padrão do aplicativo
- Executar o código