Guía de inicio rápido para usar la herramienta de línea de comandos de gcloud

En esta página, se muestra cómo usar la herramienta de línea de comandos de gcloud del SDK de Google Cloud para crear un clúster de Google Cloud Dataproc, ejecutar trabajos de Apache Spark en el clúster y, luego, modificar la cantidad de trabajadores en el clúster.

Puedes averiguar cómo realizar las mismas tareas (o similares) mediante las guías de inicio rápido para usar el Explorador de API, la guía de inicio rápido para usar Console y la guía de inicio rápido para usar las bibliotecas cliente de Google Cloud.

Antes de comenzar

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. En la página de selección de proyectos de Cloud Console, selecciona o crea un proyecto de Cloud.

    Ir a la página Selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud. Obtén información sobre cómo confirmar que tienes habilitada la facturación para tu proyecto.

  4. Habilita la API Dataproc.

    Habilita la API

Crea un clúster

Ejecuta el siguiente comando para crear un clúster que se llame example-cluster. Consulta Regiones y zonas disponibles para obtener información sobre cómo seleccionar una región (también puedes ejecutar el comando gcloud compute regions list para ver una lista de las regiones disponibles). También, consulta Extremos regionales para obtener información sobre la diferencia entre global y los extremos regionales.

gcloud dataproc clusters create example-cluster --region=region
...
Waiting for cluster creation operation...done.
Created [... example-cluster]

Envíe un trabajo

Si quieres enviar un trabajo de Spark de muestra que calcula un valor aproximado para pi, ejecuta el siguiente comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
  --region=region \
  --class org.apache.spark.examples.SparkPi \
  --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Este comando especifica lo siguiente:

  • Que deseas ejecutar un trabajo spark en el clúster example-cluster en la región especificada
  • La classque contiene el método principal para la aplicación que calcula el valor de pi en el trabajo
  • La ubicación del archivo JAR que contiene el código de su trabajo
  • Los parámetros que deseas pasar al trabajo; en este caso, la cantidad de tareas, que es 1000

La ejecución del trabajo y el resultado final se muestran en la ventana de la terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Actualiza un clúster

Para cambiar a cinco la cantidad de trabajadores en el clúster, ejecuta el siguiente comando:

gcloud dataproc clusters update example-cluster \
  --region=region \
  --num-workers 5

Los detalles actualizados de su clúster se muestran en el resultado del comando:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Puedes usar el mismo comando para disminuir la cantidad de nodos trabajadores al valor original, como se muestra a continuación:

gcloud dataproc clusters update example-cluster \
  --region=region \
  --num-workers 2

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta guía de inicio rápido.

  1. Ejecuta clusters delete para borrar el clúster de ejemplo.
    gcloud dataproc clusters delete example-cluster \
      --region=region
    Se te solicitará que confirmes si deseas borrar el clúster. Escribe y para completar la eliminación.
  2. También debes quitar cualquier depósito de Cloud Storage que creó el clúster mediante la ejecución del siguiente comando:
    gsutil rm gs://bucket/subdir/**

Qué sigue