Criar um cluster do Dataproc usando a CLI gcloud
Nesta página, mostramos como usar a ferramenta de linha de comando gcloud da Google Cloud CLI para criar um cluster do Dataproc, executar um job simples do Apache Spark no cluster e modificar o número de workers no cluster.
Saiba como fazer as mesmas tarefas ou tarefas semelhantes com os Guias de início rápido sobre como usar o API Explorer, o console do Google Cloud em Criar um cluster do Dataproc usando o console do Google Cloud e usando as bibliotecas de cliente em Criar um cluster do Dataproc usando bibliotecas de cliente.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Criar um cluster
Execute o seguinte comando para criar um cluster chamado example-cluster
.
Consulte Regiões e zonas disponíveis para informações sobre como selecionar uma região (você também pode executar o comando gcloud compute regions list
para ver uma lista de regiões disponíveis).
Consulte também Endpoints regionais para saber mais sobre eles.
gcloud dataproc clusters create example-cluster --region=region
A criação do cluster é confirmada na saída do comando:
... Waiting for cluster creation operation...done. Created [... example-cluster]
Envie um job
Para enviar um job Spark de exemplo que calcula um valor aproximado para pi, execute o seguinte comando:
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=region \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
Esse comando especifica:
- Você quer executar um job
spark
no clusterexample-cluster
na região especificada - O
class
que contém o método principal do aplicativo de cálculo de pi do job - O local do arquivo jar contendo o código do job
- todos os parâmetros que você quer passar para o job. Neste caso, o número de tarefas, que é
1000
.
A execução do job e os resultados finais são exibidos na janela do terminal:
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
Atualizar um cluster
Para alterar o número de trabalhos do cluster para cinco, execute o seguinte comando:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 5
Os detalhes do cluster são exibidos na saída do comando:
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
É possível usar o mesmo comando para reduzir o número de nós de trabalho ao valor original:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 2
Limpar
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
- Execute
clusters delete
para excluir seu cluster de exemplo. Você vai precisar confirmar que quer excluir o cluster. Digitegcloud dataproc clusters delete example-cluster \ --region=region
y
para concluir a exclusão.
A seguir
- Aprenda a gravar e executar um job do Spark Scala.