Como criar um cluster do Dataproc
Requisitos:
Nome:o nome do cluster precisa começar com uma letra minúscula seguida por até 51 letras minúsculas, números e hifens, mas não pode terminar com um hífen.
Região do cluster: especifique uma região do Compute Engine para o cluster, como
us-east1
oueurope-west1
, para isolar recursos do cluster, como instâncias de VM e metadados de cluster armazenados no Cloud Storage, na região.- Consulte Endpoints regionais para mais informações sobre endpoints regionais.
- Consulte informações sobre a seleção de uma região em Regiões e zonas disponíveis. Também é possível executar o
comando
gcloud compute regions list
para exibir uma listagem de regiões disponíveis.
Conectividade: instâncias de máquina virtual do Compute Engine (VMs) em um cluster do Dataproc, que consistem em VMs mestre e de trabalho, exigem conectividade cruzada de rede IP interna completa. A rede VPC
default
fornece essa conectividade. Consulte Configuração de rede de cluster do Dataproc.
gcloud
Para criar um cluster do Dataproc na linha de comando, execute o comando gcloud dataproc clusters create localmente em uma janela do terminal ou no Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
O comando cria um cluster com configurações padrão de serviço do Dataproc para as instâncias de máquina virtual mestre e de trabalho, tamanhos e tipos de disco, tipo de rede, região e zona em que o cluster está implantado, além de outras configurações do cluster. Consulte o comando gcloud dataproc clusters create para ver informações sobre como usar sinalizações da linha de comando a fim de personalizar configurações do cluster.
Criar um cluster com um arquivo YAML
- Execute o comando
gcloud
a seguir a fim de exportar a configuração de um cluster atual do Dataproc para um arquivocluster.yaml
.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Crie um novo cluster importando a configuração do arquivo YAML.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
Observação: durante a operação de exportação, campos específicos do cluster, como nome do cluster, campos somente saída e rótulos aplicados automaticamente são filtrados. Esses campos não são permitidos no arquivo YAML importado usado para criar um cluster.
REST
Nesta seção, mostramos como criar um cluster com valores obrigatórios e a configuração padrão (1 mestre, 2 workers).
Antes de usar os dados da solicitação, faça as substituições a seguir:
- project-id: ID do projeto do Google Cloud
- region: região do cluster
- clusterName: nome do cluster
Método HTTP e URL:
POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters
Corpo JSON da solicitação:
{ "clusterName": "cluster-name", "config": {} }
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{ "name": "projects/project-id/regions/region/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "cluster-name", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
Console
Abra a página Criar um cluster do Dataproc no console do Google Cloud no navegador e, em seguida, clique em Criar no cluster na linha do Compute Engine na página Criar um cluster do Dataproc no Compute Engine. O painel "Configurar cluster" é selecionado com campos preenchidos com valores padrão. É possível selecionar cada painel e confirmar ou alterar os valores padrão para personalizar o cluster.
Clique em Criar para gerar o cluster. O nome do cluster é exibido na página Clusters e seu status é atualizado para Em execução depois que o cluster é provisionado. Clique no nome do cluster para abrir a página de detalhes do cluster, em que você pode examinar jobs, instâncias e configurações do cluster, além de se conectar às interfaces da Web em execução no cluster.
Go
- Instale a biblioteca de cliente.
- Configure o Application Default Credentials.
- Execute o código.
Java
- Instale a biblioteca de cliente.
- Configure o Application Default Credentials.
- Execute o código.
Node.js
- Instale a biblioteca de cliente.
- Configure o Application Default Credentials.
- Execute o código.
Python
- Instale a biblioteca de cliente.
- Configure o Application Default Credentials.
- Execute o código.