Criar um cluster do Dataproc usando a CLI gcloud

Nesta página, mostramos como usar a ferramenta de linha de comando gcloud da Google Cloud CLI para criar um cluster do Dataproc, executar um job simples do Apache Spark no cluster e modificar o número de workers no cluster.

Saiba como fazer as mesmas tarefas ou tarefas semelhantes com os Guias de início rápido sobre como usar o API Explorer, o console Google Cloud em Criar um cluster do Dataproc usando o Google Cloud console e usando as bibliotecas de cliente em Criar um cluster do Dataproc usando as bibliotecas de cliente.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

Criar um cluster

Execute o seguinte comando para criar um cluster chamado example-cluster. Consulte Regiões e zonas disponíveis para informações sobre como selecionar uma região (você também pode executar o comando gcloud compute regions list para ver uma lista de regiões disponíveis). Consulte também Endpoints regionais para saber mais sobre eles.

gcloud dataproc clusters create example-cluster --region=region

A criação do cluster é confirmada na saída do comando:

...
Waiting for cluster creation operation...done.
Created [... example-cluster]

Envie um job

Para enviar um job Spark de exemplo que calcula um valor aproximado para pi, execute o seguinte comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Esse comando especifica:

  • Você quer executar um job spark no cluster example-cluster na região especificada
  • O class que contém o método principal do aplicativo de cálculo de pi do job
  • O local do arquivo jar contendo o código do job
  • todos os parâmetros que você quer passar para o job. Neste caso, o número de tarefas, que é 1000.

A execução do job e os resultados finais são exibidos na janela do terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Atualizar um cluster

Para alterar o número de trabalhos do cluster para cinco, execute o seguinte comando:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 5

Os detalhes do cluster são exibidos na saída do comando:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

É possível usar o mesmo comando para reduzir o número de nós de trabalho ao valor original:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 2

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

  • Execute clusters delete para excluir seu cluster de exemplo.
    gcloud dataproc clusters delete example-cluster \
        --region=region
    
    Você vai precisar confirmar que quer excluir o cluster. Digite y para concluir a exclusão.

A seguir