Crea un clúster de Dataproc mediante gcloud CLI
En esta página se muestra cómo usar la herramienta de línea de comandos gcloud de Google Cloud CLI para crear un clúster de Dataproc, ejecutar una tarea de Apache Spark en el clúster y, a continuación, modificar el número de trabajadores del clúster.
.Puedes consultar cómo realizar las mismas tareas o tareas similares en las guías de inicio rápido con el Explorador de APIs, en la consola de Crear un clúster de Dataproc mediante la consola y en Crear un clúster de Dataproc mediante bibliotecas de cliente. Google Cloud Google Cloud
Antes de empezar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - Quieres ejecutar un trabajo
spark
en el clústerexample-cluster
de la región especificada - El
class
que contiene el método principal de la aplicación de cálculo de pi del trabajo - Ubicación del archivo JAR que contiene el código de tu trabajo
- Los parámetros que quieras transferir a la tarea (en este caso, el número de tareas, que es
1000
Para eliminar tu
example-cluster
, ejecuta el comandoclusters delete
:gcloud dataproc clusters delete example-cluster \ --region=REGION
Para confirmar y completar la eliminación del clúster, pulsa y y, a continuación, Intro cuando se te pida.
- Consulta cómo escribir y ejecutar una tarea de Scala en Spark.
Crear un clúster
Para crear un clúster llamado example-cluster
, ejecuta el siguiente comando:
gcloud dataproc clusters create example-cluster --region=REGION
El resultado del comando confirma la creación del clúster:
Waiting for cluster creation operation...done. Created [... example-cluster]
Para obtener información sobre cómo seleccionar una región, consulta Regiones y zonas disponibles.
Para ver una lista de las regiones disponibles, puedes ejecutar el comando gcloud compute regions list
.
Para obtener información sobre los puntos finales regionales, consulte Puntos finales regionales.
Enviar una tarea
Para enviar una tarea de Spark de ejemplo que calcule un valor aproximado de pi
, ejecuta el siguiente comando:
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=REGION \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
Este comando especifica lo siguiente:
El trabajo se está ejecutando y el resultado final se muestra en la ventana de la terminal:
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
Actualizar un clúster
Para cambiar el número de trabajadores del clúster a cinco, ejecuta el siguiente comando:
gcloud dataproc clusters update example-cluster \ --region=REGION \ --num-workers 5
El resultado del comando muestra los detalles de tu clúster. Por ejemplo:
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
Para reducir el número de nodos de trabajador al valor original, usa el mismo comando:
gcloud dataproc clusters update example-cluster \ --region=REGION \ --num-workers 2
Limpieza
Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos utilizados en esta página, sigue estos pasos.