Se usó la API de Cloud Translation para traducir esta página.

Crea un clúster de Dataproc con gcloud CLI

En esta página, se muestra cómo usar la herramienta de línea de comandos gcloud de Google Cloud CLI para crear un clúster de Dataproc, ejecutar un trabajo de Apache Spark en el clúster y, luego, modificar la cantidad de trabajadores en el clúster.

Una forma conveniente de ejecutar la herramienta de línea de comandos de gcloud es desde Cloud Shell, que tiene preinstalada Google Cloud CLI. Cloud Shell es gratuito para los clientes de Google Cloud . Para usar Cloud Shell, necesitas unGoogle Cloud proyecto.

Puedes averiguar cómo realizar las mismas tareas (o similares) con las guías de inicio rápido para usar el Explorador de APIs, la consola de Google Cloud en Crea un clúster de Dataproc con la consola de Google Cloud y las bibliotecas cliente en Crea un clúster de Dataproc con bibliotecas cliente.

Antes de comenzar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Crea un clúster

Para crear un clúster llamado example-cluster, ejecuta el siguiente comando:

gcloud dataproc clusters create example-cluster --region=REGION

El resultado del comando confirma la creación del clúster:

Waiting for cluster creation operation...done.
Created [... example-cluster]

Para obtener información sobre cómo seleccionar una región, consulta Regiones y zonas disponibles. Para ver una lista de las regiones disponibles, puedes ejecutar el comando gcloud compute regions list. Para obtener información sobre los extremos regionales, consulta Extremos regionales.

Envía un trabajo

Si quieres enviar un trabajo de Spark de muestra que calcule un valor aproximado para pi, ejecuta el siguiente comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=REGION \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Este comando especifica lo siguiente:

Que deseas ejecutar un trabajo de spark en el clúster example-cluster en la región especificada
La classque contiene el método principal para la aplicación que calcula el valor de pi en el trabajo
La ubicación del archivo JAR que contiene el código de su trabajo
Los parámetros que deseas pasar al trabajo; en este caso, la cantidad de tareas, que es 1000

Los parámetros que se pasan al trabajo deben escribirse a continuación de un guion doble (--). Para obtener más información, consulta la documentación de Google Cloud CLI.

La ejecución del trabajo y el resultado final se muestran en la ventana de terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Actualiza un clúster

Para cambiar a cinco la cantidad de trabajadores en el clúster, ejecuta el siguiente comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 5

En el resultado del comando, se muestran los detalles de tu clúster. Por ejemplo:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Para disminuir la cantidad de nodos trabajadores al valor original, usa el mismo comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 2

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

Para borrar tu example-cluster, ejecuta el comando clusters delete:

gcloud dataproc clusters delete example-cluster \
    --region=REGION

Para confirmar y completar la eliminación del clúster, presiona y y, luego, Intro cuando se te solicite.

¿Qué sigue?

Aprende a escribir y ejecutar un trabajo de Spark Scala.