Criar um cluster do Dataproc usando a CLI gcloud

Nesta página, mostramos como usar a ferramenta de linha de comando gcloud do CLI do Google Cloud para criar um cluster do Dataproc, executar um job do Apache Spark no cluster e modificar o número de workers no cluster.

.

Saiba como fazer as mesmas tarefas ou tarefas semelhantes com os Guias de início rápido sobre como usar o API Explorer, o console do Google Cloud em Criar um cluster do Dataproc usando o console do Google Cloud e usando as bibliotecas de cliente em Criar um cluster do Dataproc usando bibliotecas de cliente.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

Criar um cluster

Para criar um cluster chamado example-cluster, execute o seguinte comando:

gcloud dataproc clusters create example-cluster --region=REGION

A saída do comando confirma a criação do cluster:

Waiting for cluster creation operation...done.
Created [... example-cluster]

Para informações sobre como selecionar uma região, consulte Regiões e zonas disponíveis. Para conferir uma lista das regiões disponíveis, execute o comando gcloud compute regions list. Para saber mais sobre endpoints regionais, consulte Endpoints regionais.

Envie um job

Para enviar um job do Spark de exemplo que calcula um valor aproximado para pi, execute o seguinte comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=REGION \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Esse comando especifica o seguinte:

  • Você quer executar um job spark no cluster example-cluster na região especificada
  • O class que contém o método principal do aplicativo de cálculo de pi do job
  • O local do arquivo jar contendo o código do job
  • todos os parâmetros que você quer passar para o job. Neste caso, o número de tarefas, que é 1000.

A execução do job e a resposta final são exibidas na janela do terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Atualizar um cluster

Para alterar o número de trabalhos do cluster para cinco, execute o seguinte comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 5

A saída do comando mostra os detalhes do cluster. Exemplo:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Para reduzir o número de nós de trabalho ao valor original, use o mesmo comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 2

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

  1. Para excluir o example-cluster, execute o comando clusters delete:

    gcloud dataproc clusters delete example-cluster \
        --region=REGION
    

  2. Para confirmar e concluir a exclusão do cluster, pressione y e Enter quando solicitado.

A seguir