Criar um cluster do Dataproc usando a CLI gcloud

Nesta página, mostramos como usar a ferramenta de linha de comando gcloud da Google Cloud CLI para criar um cluster do Google Cloud Dataproc, executar um job simples do Apache Spark no cluster e modificar o número de workers.

Você pode descobrir como fazer tarefas iguais ou semelhantes com Guias de início rápido sobre como usar o API Explorer, o console do Google Cloud em Criar um cluster do Dataproc usando o console do Google Cloud e usando as bibliotecas de cliente em Criar um cluster do Dataproc usando bibliotecas de cliente.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Ative a API Dataproc.

    Ative a API

  5. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  6. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  7. Ative a API Dataproc.

    Ative a API

Criar um cluster

Execute o seguinte comando para criar um cluster chamado example-cluster. Consulte Regiões e zonas disponíveis para informações sobre como selecionar uma região (você também pode executar o comando gcloud compute regions list para ver uma lista de regiões disponíveis). Consulte também Endpoints regionais para saber mais sobre endpoints regionais.

gcloud dataproc clusters create example-cluster --region=region

A criação do cluster é confirmada na saída do comando:

...
Waiting for cluster creation operation...done.
Created [... example-cluster]

Envie um job

Para enviar um job Spark de exemplo que calcula um valor aproximado para pi, execute o seguinte comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Esse comando especifica:

  • Você quer executar um job spark no cluster example-cluster na região especificada
  • O class que contém o método principal do aplicativo de cálculo de pi do job
  • O local do arquivo jar contendo o código do job
  • todos os parâmetros que você quer passar para o job. Neste caso, o número de tarefas, que é 1000.

A execução do job e os resultados finais são exibidos na janela do terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Atualizar um cluster

Para alterar o número de trabalhos do cluster para cinco, execute o seguinte comando:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 5

Os detalhes do cluster são exibidos na saída do comando:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

É possível usar o mesmo comando para reduzir o número de nós de trabalho ao valor original:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 2

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

  • Execute clusters delete para excluir o cluster de exemplo.
    gcloud dataproc clusters delete example-cluster \
        --region=region
    
    Você será solicitado a confirmar se quer excluir o cluster. Digite y para concluir a exclusão.

A seguir