Esta página foi traduzida pela API Cloud Translation.

Criar um cluster do Dataproc usando a CLI gcloud

Nesta página, mostramos como usar a Google Cloud CLI gcloud para criar uma ferramenta de linha de comando do Google Cloud cluster do Dataproc, execute um job do Apache Spark no cluster e modificar o número de workers no cluster.

Uma maneira fácil de executar a linha de comando gcloud é de o Cloud Shell, que tem a Google Cloud CLI pré-instalada. O Cloud Shell é gratuito para clientes do Google Cloud. Basta ter um projeto do Google Cloud para usá-lo.

Saiba como fazer as mesmas tarefas ou tarefas semelhantes com os Guias de início rápido sobre como usar o API Explorer, o console do Google Cloud em Criar um cluster do Dataproc usando o console do Google Cloud e usando as bibliotecas de cliente em Criar um cluster do Dataproc usando bibliotecas de cliente.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

Enable the Dataproc API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

Enable the Dataproc API.

Enable the API

Criar um cluster

Execute o seguinte comando para criar um cluster chamado example-cluster. Consulte Regiões e zonas disponíveis para informações sobre como selecionar uma região (você também pode executar o comando gcloud compute regions list para ver uma lista de regiões disponíveis). Consulte também Endpoints regionais para saber mais sobre eles.

gcloud dataproc clusters create example-cluster --region=region

A criação do cluster é confirmada na saída do comando:

...
Waiting for cluster creation operation...done.
Created [... example-cluster]

Envie um job

Para enviar um job Spark de exemplo que calcula um valor aproximado para pi, execute o seguinte comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Esse comando especifica:

Você quer executar um job spark no cluster example-cluster na região especificada
O class que contém o método principal do aplicativo de cálculo de pi do job
O local do arquivo jar contendo o código do job
todos os parâmetros que você quer passar para o job. Neste caso, o número de tarefas, que é 1000.

Os parâmetros transmitidos ao job precisam vir depois de dois traços (--). Consulte a documentação do gcloud para saber mais.

A execução do job e os resultados finais são exibidos na janela do terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Atualizar um cluster

Para alterar o número de trabalhos do cluster para cinco, execute o seguinte comando:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 5

Os detalhes do cluster são exibidos na saída do comando:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

É possível usar o mesmo comando para reduzir o número de nós de trabalho ao valor original:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 2

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

Execute clusters delete para excluir seu cluster de exemplo.
```
gcloud dataproc clusters delete example-cluster \
    --region=region
```
Você precisará confirmar a exclusão do cluster. Digite y para concluir a exclusão.

A seguir

Aprenda a escrever e executar um job do Spark Scala.