Como criar um cluster do Dataproc
Requisitos:
Nome:o nome do cluster precisa começar com uma letra minúscula seguida por até 51 letras minúsculas, números e hifens, mas não pode terminar com um hífen.
Região do cluster:é necessário especificar uma região do Compute Engine para o cluster, como
us-east1
oueurope-west1
, para isolar os recursos do cluster, como instâncias de VM e metadados do cluster armazenados no Cloud Storage, na região.- Consulte Endpoints regionais para mais informações.
- Consulte informações sobre a seleção de uma região em Regiões e zonas disponíveis. Você também pode executar o comando
gcloud compute regions list
para mostrar uma lista de regiões disponíveis.
Conectividade:as instâncias de máquina virtual do Compute Engine (VMs) em um cluster do Dataproc, que consistem em VMs mestre e de trabalho, exigem conectividade interna completa de rede IP. A rede VPC
default
fornece essa conectividade (consulte Configuração de rede de cluster do Dataproc).
gcloud
Para criar um cluster do Dataproc na linha de comando, execute o comando gcloud dataproc clusters create localmente em uma janela de terminal ou no Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
O comando cria um cluster com configurações padrão do serviço do Dataproc para as instâncias mestre e de trabalho da máquina virtual, além de tamanhos e tipos de disco, tipo de rede, região e zona onde o cluster está implantado e outras configurações do cluster. Consulte o comando gcloud dataproc clusters create para ver informações sobre como usar sinalizações da linha de comando a fim de personalizar configurações do cluster.
Criar um cluster com um arquivo YAML
- Execute o comando
gcloud
a seguir para exportar a configuração de um cluster do Dataproc para um arquivocluster.yaml
.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Crie um novo cluster importando a configuração do arquivo YAML.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
Observação:durante a operação de exportação, os campos específicos do cluster, como o nome do cluster, os campos somente saída e os rótulos aplicados automaticamente são filtrados. Esses campos não são permitidos no arquivo YAML importado usado para criar um cluster.
REST
Nesta seção, mostramos como criar um cluster com valores obrigatórios e a configuração padrão (1 mestre, 2 workers).
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- CLUSTER_NAME: nome do cluster
- PROJECT: ID do projeto do Google Cloud
- REGION: uma região do Compute Engine disponível em que o cluster será criado.
- ZONE: uma zona opcional na região selecionada em que o cluster será criado.
Método HTTP e URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
Corpo JSON da solicitação:
{ "project_id":"PROJECT", "cluster_name":"CLUSTER_NAME", "config":{ "master_config":{ "num_instances":1, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "softwareConfig": { "imageVersion": "", "properties": {}, "optionalComponents": [] }, "worker_config":{ "num_instances":2, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "gce_cluster_config":{ "zone_uri":"ZONE" } } }
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{ "name": "projects/PROJECT/regions/REGION/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "CLUSTER_NAME", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
Console
Abra a página Criar um cluster do Dataproc no console do Google Cloud no navegador e clique em Criar na linha do cluster em Compute Engine na página Criar um cluster do Dataproc no Compute Engine. O painel "Configurar cluster" é selecionado com campos preenchidos com valores padrão. É possível selecionar cada painel e confirmar ou alterar os valores padrão para personalizar o cluster.
Clique em Criar para gerar o cluster. O nome do cluster aparece na página Clusters e o status é atualizado para "Em execução" depois que o cluster é provisionado. Clique no nome do cluster para abrir a página de detalhes do cluster, em que você pode examinar jobs, instâncias e configurações do cluster, além de se conectar às interfaces da Web em execução no cluster.