gcloud
Criar um cluster do Dataproc usando a CLI gcloud
Nesta página, mostramos como usar a ferramenta de linha de comando gcloud da CLI do Google Cloud para criar um cluster do Google Cloud Dataproc, executar um job simples do Apache Spark e modificar o número de workers no cluster.
Veja como fazer as mesmas tarefas ou tarefas semelhantes com o Guias de início rápido sobre como usar o API Explorer, o Console do Google Cloud em Guia de início rápido sobre como usar o Console e usando as bibliotecas de cliente em Guia de início rápido: como usar bibliotecas de cliente do Google Cloud.
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.
-
Ative a API Dataproc.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.
-
Ative a API Dataproc.
Crie um cluster
Execute o seguinte comando para criar um cluster chamado example-cluster
.
Consulte Regiões e zonas disponíveis para informações sobre como selecionar uma região (você também pode executar o comando gcloud compute regions list
para ver uma lista de regiões disponíveis).
Veja também Endpoints regionais para saber mais sobre a diferença entre global
e endpoints regionais.
gcloud dataproc clusters create example-cluster --region=region
A criação do cluster é confirmada na saída do comando:
... Waiting for cluster creation operation...done. Created [... example-cluster]
Envie um job
Para enviar um job Spark de exemplo que calcula um valor aproximado para pi, execute o seguinte comando:
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=region \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
Esse comando especifica:
- Você quer executar um job
spark
no clusterexample-cluster
na região especificada - O
class
que contém o método principal do aplicativo de cálculo de pi do job - O local do arquivo jar contendo o código do job
- todos os parâmetros que você quer passar para o job. Neste caso, o número de tarefas, que é
1000
.
A execução do job e os resultados finais são exibidos na janela do terminal:
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
Atualizar um cluster
Para alterar o número de trabalhos do cluster para cinco, execute o seguinte comando:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 5
Os dados atualizados do cluster são exibidos na saída do comando:
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
É possível usar o mesmo comando para reduzir o número de nós de trabalho ao valor original:
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 2
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas:
- Execute
clusters delete
para excluir o cluster de exemplo.gcloud dataproc clusters delete example-cluster \ --region=region
Você será solicitado a confirmar se quer excluir o cluster. Digitey
para concluir a exclusão.
A seguir
- Aprenda a escrever e executar um job do Scala.