Créer un cluster Dataproc à l'aide de la gcloud CLI
Cette page vous explique comment utiliser l'outil de ligne de commande gcloud de la CLI Google Cloud pour créer un cluster Google Cloud Dataproc, exécuter une tâche Apache Spark simple dans le cluster, puis modifier le nombre de nœuds de calcul de ce dernier.
Vous pouvez découvrir comment effectuer des tâches identiques ou similaires sur la page Démarrage rapide avec l'explorateur d'API, à l'aide de Google Cloud Console sur la page Créer un cluster Dataproc à l'aide de la console Google Cloud et à l'aide des bibliothèques clientes sur la page Créer un cluster Dataproc à l'aide de bibliothèques clientes.
Avant de commencer
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Créer un cluster
Exécutez la commande suivante pour créer un cluster nommé example-cluster
.
Pour en savoir plus sur la sélection d'une région, consultez la page Régions et zones disponibles (vous pouvez également exécuter la commande gcloud compute regions list
pour afficher la liste des régions disponibles).
Consultez également la page Points de terminaison régionaux pour en savoir plus sur les points de terminaison régionaux.
gcloud dataproc clusters create example-cluster --region=region
La création du cluster est confirmée dans le résultat de la commande :
... Waiting for cluster creation operation...done. Created [... example-cluster]
Envoyer une tâche
Exécutez la commande suivante pour envoyer un exemple de tâche Spark qui calcule une valeur approximative de pi :
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=region \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
Cette commande spécifie les éléments suivants :
- que vous souhaitez exécuter une tâche
spark
sur le clusterexample-cluster
dans la région spécifiée - La classe (
class
) contenant la méthode principale utilisée pour l'application de calcul de pi de la tâche - La zone du fichier JAR contenant le code de votre tâche.
- Tous les paramètres que vous souhaitez transmettre à la tâche. Dans ce cas, le nombre de tâches, c'est-à-dire
1000
.
L'exécution de la tâche ainsi que le résultat s'affichent dans la fenêtre de terminal :
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
Mettre à jour un cluster
Pour définir le nombre de nœuds de calcul du cluster sur 5, exécutez la commande suivante :
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 5
Les détails de votre cluster s'affichent dans le résultat de la commande :
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
Vous pouvez utiliser la même commande pour réduire le nombre de nœuds de calcul à la valeur d'origine :
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 2
Effectuer un nettoyage
Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :
- Exécutez
clusters delete
pour supprimer votre exemple de cluster. Vous êtes invité à confirmer la suppression du cluster. Saisissezgcloud dataproc clusters delete example-cluster \ --region=region
y
pour terminer la suppression.
Étape suivante
- Découvrez comment écrire et exécuter une tâche Spark Scala.