Esta página foi traduzida pela API Cloud Translation.

Crie um cluster do Dataproc com a CLI gcloud

Esta página mostra-lhe como usar a ferramenta de linha de comandos gcloud da CLI do Google Cloud para criar um cluster do Dataproc, executar uma tarefa do Apache Spark no cluster e, em seguida, modificar o número de trabalhadores no cluster.

Uma forma conveniente de executar a ferramenta de linha de comandos é a partir da Cloud Shell, que tem a CLI do Google Cloud pré-instalada.gcloud O Cloud Shell é gratuito para os clientes do Google Cloud . Para usar o Cloud Shell, precisa de um Google Cloud projeto

Pode saber como realizar tarefas semelhantes ou iguais com os Inícios rápidos com o API Explorer, a Google Cloud consola em Crie um cluster do Dataproc com a Google Cloud consola, e usando as bibliotecas cliente em Crie um cluster do Dataproc com bibliotecas cliente.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Crie um cluster

Para criar um cluster denominado example-cluster, execute o seguinte comando:

gcloud dataproc clusters create example-cluster --region=REGION

O resultado do comando confirma a criação do cluster:

Waiting for cluster creation operation...done.
Created [... example-cluster]

Para obter informações sobre como selecionar uma região, consulte o artigo Regiões e zonas disponíveis. Para ver uma lista das regiões disponíveis, pode executar o comando gcloud compute regions list. Para saber mais sobre os pontos finais regionais, consulte o artigo Pontos finais regionais.

Envie um trabalho

Para enviar uma tarefa de exemplo do Spark que calcule um valor aproximado para pi, execute o seguinte comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=REGION \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Este comando especifica o seguinte:

Quer executar uma tarefa spark no cluster example-cluster na região especificada
O class que contém o método principal para a aplicação de cálculo de pi do trabalho
A localização do ficheiro JAR que contém o código do seu trabalho
Quaisquer parâmetros que queira transmitir à tarefa, neste caso, o número de tarefas, que é 1000

Os parâmetros transmitidos à tarefa têm de seguir um duplo traço (--). Para mais informações, consulte a documentação da CLI Google Cloud.

A tarefa está em execução e o resultado final é apresentado na janela de terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Atualize um cluster

Para alterar o número de trabalhadores no cluster para cinco, execute o seguinte comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 5

O resultado do comando apresenta os detalhes do cluster. Por exemplo:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Para diminuir o número de nós de trabalho para o valor original, use o mesmo comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 2

Limpar

Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.

Para eliminar o example-cluster, execute o comando clusters delete:

gcloud dataproc clusters delete example-cluster \
    --region=REGION

Para confirmar e concluir a eliminação do cluster, prima y e, de seguida, prima Enter quando lhe for pedido.

O que se segue?

Saiba como escrever e executar uma tarefa Spark Scala.