En esta página, se muestra cómo usar la herramienta de línea de comandos de gcloud del SDK de Google Cloud para crear un clúster de Google Cloud Dataproc, ejecutar trabajos de Apache Spark en el clúster y, luego, modificar la cantidad de trabajadores en el clúster.
Puedes descubrir cómo realizar las mismas tareas con Guías de inicio rápido sobre el uso del Explorador de API y Google Cloud Platform Console en Guía de inicio rápido sobre el uso de Console.
Antes de comenzar
-
Accede a tu Cuenta de Google.
Si todavía no tienes una cuenta, regístrate para obtener una nueva.
-
Selecciona o crea un proyecto de GCP.
-
Asegúrate de tener habilitada la facturación para tu proyecto.
- Habilita las Cloud Dataproc API necesarias.
Crea un clúster
Para crear un clúster llamado example-cluster
con la configuración predeterminada de Cloud Dataproc, deberás ejecutar el siguiente comando:
gcloud dataproc clusters create example-cluster ... Waiting for cluster creation operation...done. Created [... example-cluster]
El valor predeterminado de la marca --region
es global
. Este es un extremo multirregión especial capaz de implementar instancias en cualquier zona de Compute Engine que especifique el usuario. Además, puedes especificar distintas regiones, como us-east1
o europe-west1
, para aislar los recursos (lo que incluye las instancias de VM y Cloud Storage) y las ubicaciones de almacenamiento de metadatos que Cloud Dataproc usa en la región que especifica el usuario. Consulta Extremos regionales para obtener más información sobre la diferencia entre los extremos globales y regionales.
Consulta Regiones y zonas disponibles para obtener información sobre cómo seleccionar una región. También puedes ejecutar el comando gcloud compute regions list
para ver una lista de las regiones disponibles.
Envía un trabajo
Si quieres enviar un trabajo de Spark de muestra que calcula un valor aproximado para pi, ejecuta el siguiente comando:
gcloud dataproc jobs submit spark --cluster example-cluster \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
Este comando especifica lo siguiente:
- Que deseas ejecutar un trabajo de
spark
en el clústerexample-cluster
- La
class
que contiene el método principal para la aplicación que calcula el valor de pi en el trabajo - La ubicación del archivo jar que contiene el código de tu trabajo
- Los parámetros que deseas pasar al trabajo; en este caso, la cantidad de tareas, que es
1000
La ejecución del trabajo y el resultado final se muestran en la ventana de la terminal:
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
Actualiza un clúster
Para cambiar a cinco la cantidad de trabajadores en el clúster, ejecuta el siguiente comando:
gcloud dataproc clusters update example-cluster --num-workers 5
Los detalles actualizados de su clúster se muestran en el resultado del comando:
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
Puedes usar el mismo comando para disminuir la cantidad de nodos trabajadores al valor original, como se muestra a continuación:
gcloud dataproc clusters update example-cluster --num-workers 2
Limpieza
Para evitar que se generen cargos en tu cuenta de GCP por los recursos que usaste en esta guía de inicio rápido, sigue estos pasos:
- Ejecuta
clusters delete
para borrar tu clúster de ejemplo.gcloud dataproc clusters delete example-cluster
Se te solicitará que confirmes si deseas borrar el clúster. Escribey
para completar la eliminación. - También debes quitar cualquier depósito de Cloud Storage que creó el clúster mediante la ejecución del siguiente comando:
gsutil rm gs://bucket/subdir/**
Pasos siguientes
- Obtén información sobre cómo escribir y ejecutar un trabajo de Scala.
- Obtén información sobre cómo instalar y ejecutar un notebook de Jupyter.