Crie um cluster do Dataproc com a CLI gcloud
Esta página mostra-lhe como usar a ferramenta de linha de comandos gcloud da CLI do Google Cloud para criar um cluster do Dataproc, executar uma tarefa do Apache Spark no cluster e, em seguida, modificar o número de trabalhadores no cluster.
.Pode saber como realizar tarefas semelhantes ou iguais com os Inícios rápidos com o API Explorer, a Google Cloud consola em Crie um cluster do Dataproc com a Google Cloud consola, e usando as bibliotecas cliente em Crie um cluster do Dataproc com bibliotecas cliente.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - Quer executar uma tarefa
spark
no clusterexample-cluster
na região especificada - O
class
que contém o método principal para a aplicação de cálculo de pi do trabalho - A localização do ficheiro JAR que contém o código do seu trabalho
- Quaisquer parâmetros que queira transmitir à tarefa, neste caso, o número de tarefas, que é
1000
Para eliminar o
example-cluster
, execute o comandoclusters delete
:gcloud dataproc clusters delete example-cluster \ --region=REGION
Para confirmar e concluir a eliminação do cluster, prima y e, de seguida, prima Enter quando lhe for pedido.
- Saiba como escrever e executar uma tarefa Spark Scala.
Crie um cluster
Para criar um cluster denominado example-cluster
, execute o seguinte comando:
gcloud dataproc clusters create example-cluster --region=REGION
O resultado do comando confirma a criação do cluster:
Waiting for cluster creation operation...done. Created [... example-cluster]
Para obter informações sobre como selecionar uma região, consulte o artigo
Regiões e zonas disponíveis.
Para ver uma lista das regiões disponíveis, pode executar o comando gcloud compute regions list
.
Para saber mais sobre os pontos finais regionais, consulte o artigo
Pontos finais regionais.
Envie um trabalho
Para enviar uma tarefa de exemplo do Spark que calcule um valor aproximado para pi
, execute o seguinte comando:
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=REGION \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
Este comando especifica o seguinte:
A tarefa está em execução e o resultado final é apresentado na janela de terminal:
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
Atualize um cluster
Para alterar o número de trabalhadores no cluster para cinco, execute o seguinte comando:
gcloud dataproc clusters update example-cluster \ --region=REGION \ --num-workers 5
O resultado do comando apresenta os detalhes do cluster. Por exemplo:
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
Para diminuir o número de nós de trabalho para o valor original, use o mesmo comando:
gcloud dataproc clusters update example-cluster \ --region=REGION \ --num-workers 2
Limpar
Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.