Esta página se ha traducido con Cloud Translation API.

Crea un clúster de Dataproc mediante gcloud CLI

En esta página se muestra cómo usar la herramienta de línea de comandos gcloud de Google Cloud CLI para crear un clúster de Dataproc, ejecutar una tarea de Apache Spark en el clúster y, a continuación, modificar el número de trabajadores del clúster.

Una forma cómoda de ejecutar la herramienta de línea de comandos gcloud es desde Cloud Shell, que tiene preinstalada la CLI de Google Cloud. Cloud Shell es gratuito para los clientes de Google Cloud . Para usar Cloud Shell, necesitas unGoogle Cloud proyecto

Puedes consultar cómo realizar las mismas tareas o tareas similares en las guías de inicio rápido con el Explorador de APIs, en la consola de Crear un clúster de Dataproc mediante la consola y en Crear un clúster de Dataproc mediante bibliotecas de cliente. Google Cloud Google Cloud

Antes de empezar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Crear un clúster

Para crear un clúster llamado example-cluster, ejecuta el siguiente comando:

gcloud dataproc clusters create example-cluster --region=REGION

El resultado del comando confirma la creación del clúster:

Waiting for cluster creation operation...done.
Created [... example-cluster]

Para obtener información sobre cómo seleccionar una región, consulta Regiones y zonas disponibles. Para ver una lista de las regiones disponibles, puedes ejecutar el comando gcloud compute regions list. Para obtener información sobre los puntos finales regionales, consulte Puntos finales regionales.

Enviar una tarea

Para enviar una tarea de Spark de ejemplo que calcule un valor aproximado de pi, ejecuta el siguiente comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=REGION \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Este comando especifica lo siguiente:

Quieres ejecutar un trabajo spark en el clúster example-cluster de la región especificada
El class que contiene el método principal de la aplicación de cálculo de pi del trabajo
Ubicación del archivo JAR que contiene el código de tu trabajo
Los parámetros que quieras transferir a la tarea (en este caso, el número de tareas, que es 1000

Los parámetros que se transfieren al trabajo deben ir precedidos de dos guiones (--). Para obtener más información, consulta la documentación de Google Cloud CLI.

El trabajo se está ejecutando y el resultado final se muestra en la ventana de la terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Actualizar un clúster

Para cambiar el número de trabajadores del clúster a cinco, ejecuta el siguiente comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 5

El resultado del comando muestra los detalles de tu clúster. Por ejemplo:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Para reducir el número de nodos de trabajador al valor original, usa el mismo comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 2

Limpieza

Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos utilizados en esta página, sigue estos pasos.

Para eliminar tu example-cluster, ejecuta el comando clusters delete:

gcloud dataproc clusters delete example-cluster \
    --region=REGION

Para confirmar y completar la eliminación del clúster, pulsa y y, a continuación, Intro cuando se te pida.

Siguientes pasos

Consulta cómo escribir y ejecutar una tarea de Scala en Spark.