Crea un clúster de Dataproc con la CLI de gcloud

En esta página, se muestra cómo usar la herramienta de línea de comandos gcloud de la CLI de Google Cloud para crear un clúster de Dataproc, ejecutar un trabajo de Apache Spark en el clúster y, luego, modificar la cantidad de trabajadores en el clúster.

Puedes averiguar cómo realizar las mismas tareas (o similares) con las guías de inicio rápido para usar el Explorador de API, la consola de Google Cloud en Cómo crear un clúster de Dataproc con la consola de Google Cloud y las bibliotecas cliente en Cómo crear un clúster de Dataproc con bibliotecas cliente.

Antes de comenzar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

Crea un clúster

Para crear un clúster llamado example-cluster, ejecuta el siguiente comando:

gcloud dataproc clusters create example-cluster --region=REGION

El resultado del comando confirma la creación del clúster:

Waiting for cluster creation operation...done.
Created [... example-cluster]

Para obtener información sobre cómo seleccionar una región, consulta Regiones y zonas disponibles. Para ver una lista de las regiones disponibles, puedes ejecutar el comando gcloud compute regions list. Para obtener información sobre los extremos regionales, consulta Extremos regionales.

Envía un trabajo

Si quieres enviar un trabajo de Spark de muestra que calcule un valor aproximado para pi, ejecuta el siguiente comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=REGION \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Este comando especifica lo siguiente:

  • Que deseas ejecutar un trabajo de spark en el clúster example-cluster en la región especificada
  • La classque contiene el método principal para la aplicación que calcula el valor de pi en el trabajo
  • La ubicación del archivo JAR que contiene el código de su trabajo
  • Los parámetros que deseas pasar al trabajo; en este caso, la cantidad de tareas, que es 1000

La ejecución del trabajo y el resultado final se muestran en la ventana de terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Actualiza un clúster

Para cambiar a cinco la cantidad de trabajadores en el clúster, ejecuta el siguiente comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 5

En el resultado del comando, se muestran los detalles de tu clúster. Por ejemplo:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Para disminuir la cantidad de nodos trabajadores al valor original, usa el mismo comando:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 2

Limpia

Para evitar que se apliquen cargos a tu Google Cloud cuenta por los recursos que usaste en esta página, sigue estos pasos.

  1. Para borrar tu example-cluster, ejecuta el comando clusters delete:

    gcloud dataproc clusters delete example-cluster \
        --region=REGION
    

  2. Para confirmar y completar la eliminación del clúster, presiona y y, luego, Intro cuando se te solicite.

¿Qué sigue?