Criar um cluster do Dataproc usando a CLI gcloud
Nesta página, mostramos como usar a ferramenta de linha de comando gcloud do CLI do Google Cloud para criar um cluster do Dataproc, executar um job do Apache Spark no cluster e modificar o número de workers no cluster.
.Saiba como fazer as mesmas tarefas ou tarefas semelhantes com os Guias de início rápido sobre como usar o API Explorer, o console do Google Cloud em Criar um cluster do Dataproc usando o console do Google Cloud e usando as bibliotecas de cliente em Criar um cluster do Dataproc usando bibliotecas de cliente.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Criar um cluster
Para criar um cluster chamado example-cluster
, execute o seguinte comando:
gcloud dataproc clusters create example-cluster --region=REGION
A saída do comando confirma a criação do cluster:
Waiting for cluster creation operation...done. Created [... example-cluster]
Para informações sobre como selecionar uma região, consulte Regiões e zonas disponíveis.
Para conferir uma lista das regiões disponíveis, execute o comando gcloud compute regions list
.
Para saber mais sobre endpoints regionais, consulte
Endpoints regionais.
Envie um job
Para enviar um job do Spark de exemplo que calcula um valor aproximado para pi
, execute o
seguinte comando:
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=REGION \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
Esse comando especifica o seguinte:
- Você quer executar um job
spark
no clusterexample-cluster
na região especificada - O
class
que contém o método principal do aplicativo de cálculo de pi do job - O local do arquivo jar contendo o código do job
- todos os parâmetros que você quer passar para o job. Neste caso, o número de tarefas, que é
1000
.
A execução do job e a resposta final são exibidas na janela do terminal:
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
Atualizar um cluster
Para alterar o número de trabalhos do cluster para cinco, execute o seguinte comando:
gcloud dataproc clusters update example-cluster \ --region=REGION \ --num-workers 5
A saída do comando mostra os detalhes do cluster. Exemplo:
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
Para reduzir o número de nós de trabalho ao valor original, use o mesmo comando:
gcloud dataproc clusters update example-cluster \ --region=REGION \ --num-workers 2
Limpar
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
Para excluir o
example-cluster
, execute o comandoclusters delete
:gcloud dataproc clusters delete example-cluster \ --region=REGION
Para confirmar e concluir a exclusão do cluster, pressione y e Enter quando solicitado.
A seguir
- Aprenda a gravar e executar um job do Spark Scala.