Esta página foi traduzida pela API Cloud Translation.

Criar um cluster do Dataproc usando a CLI gcloud

Nesta página, mostramos como usar a ferramenta de linha de comando gcloud da Google Cloud CLI para criar um cluster do Dataproc, executar um job do Apache Spark no cluster e modificar o número de workers.

Uma maneira conveniente de executar a ferramenta de linha de comando gcloud é no Cloud Shell, que tem a Google Cloud CLI pré-instalada. O Cloud Shell é gratuito para clientes do Google Cloud . Para usar o Cloud Shell, você precisa de umGoogle Cloud projeto

Saiba como fazer as mesmas tarefas ou tarefas semelhantes com Guias de início rápido sobre como usar o API Explorer, o console Google Cloud em Criar um cluster do Dataproc usando o console Google Cloud e usando as bibliotecas de cliente em Criar um cluster do Dataproc usando bibliotecas de cliente.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Criar um cluster

Para criar um cluster chamado example-cluster, execute o seguinte comando:

gcloud dataproc clusters create example-cluster --region=REGION

A resposta ao comando confirma a criação do cluster:

Waiting for cluster creation operation...done.
Created [... example-cluster]

Para informações sobre como selecionar uma região, consulte Regiões e zonas disponíveis. Para ver uma lista de regiões disponíveis, execute o comando gcloud compute regions list. Para saber mais sobre endpoints regionais, consulte Endpoints regionais.

Envie um job

Para enviar um job de exemplo do Spark que calcula um valor aproximado para pi, execute o seguinte comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=REGION \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Esse comando especifica o seguinte:

Você quer executar um job spark no cluster example-cluster na região especificada
O class que contém o método principal do aplicativo de cálculo de pi do job
O local do arquivo jar contendo o código do job
todos os parâmetros que você quer passar para o job. Neste caso, o número de tarefas, que é 1000.

Os parâmetros transmitidos ao job precisam vir depois de dois traços (--). Para mais informações, consulte a documentação da Google Cloud CLI.

A execução do job e a resposta final são exibidas na janela do terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Atualizar um cluster

Para alterar o número de trabalhos do cluster para cinco, execute o seguinte comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 5

A resposta ao comando mostra os detalhes do cluster. Exemplo:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Para diminuir o número de nós de trabalho ao valor original, use o mesmo comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 2

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga as etapas abaixo.

Para excluir seu example-cluster, execute o comando clusters delete:

gcloud dataproc clusters delete example-cluster \
    --region=REGION

Para confirmar e concluir a exclusão do cluster, pressione y e depois Enter quando solicitado.

A seguir

Aprenda a gravar e executar um job do Spark Scala.