Criar um cluster do Dataproc usando a CLI gcloud
Nesta página, mostramos como usar a ferramenta de linha de comando gcloud da Google Cloud CLI para criar um cluster do Google Cloud Dataproc, executar um job simples do Apache Spark no cluster e modificar o número de workers.
Você pode descobrir como fazer tarefas iguais ou semelhantes com Guias de início rápido sobre como usar o API Explorer, o console do Google Cloud em Criar um cluster do Dataproc usando o console do Google Cloud e usando as bibliotecas de cliente em Criar um cluster do Dataproc usando bibliotecas de cliente.
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative a API Dataproc.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative a API Dataproc.
Criar um cluster
Execute o seguinte comando para criar um cluster chamado example-cluster
.
Consulte Regiões e zonas disponíveis para informações sobre como selecionar uma região (você também pode executar o comando gcloud compute regions list
para ver uma lista de regiões disponíveis).
Consulte também Endpoints regionais para saber mais sobre endpoints regionais.
gcloud dataproc clusters create example-cluster --region=region
A criação do cluster é confirmada na saída do comando:
... Waiting for cluster creation operation...done. Created [... example-cluster]
Envie um job
Para enviar um job Spark de exemplo que calcula um valor aproximado para pi, execute o seguinte comando:
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=region \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
Esse comando especifica:
- Você quer executar um job
spark
no clusterexample-cluster
na região especificada - O
class
que contém o método principal do aplicativo de cálculo de pi do job - O local do arquivo jar contendo o código do job
- todos os parâmetros que você quer passar para o job. Neste caso, o número de tarefas, que é
1000
.
A execução do job e os resultados finais são exibidos na janela do terminal:
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
Atualizar um cluster
Para alterar o número de trabalhos do cluster para cinco, execute o seguinte comando:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 5
Os detalhes do cluster são exibidos na saída do comando:
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
É possível usar o mesmo comando para reduzir o número de nós de trabalho ao valor original:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 2
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
- Execute
clusters delete
para excluir o cluster de exemplo.gcloud dataproc clusters delete example-cluster \ --region=region
Você será solicitado a confirmar se quer excluir o cluster. Digitey
para concluir a exclusão.
A seguir
- Aprenda a escrever e executar um job do Spark Scala.