Créer un cluster Dataproc à l'aide de la CLI gcloud

Cette page vous explique comment utiliser l'outil de ligne de commande gcloud de la CLI Google Cloud pour créer un cluster Dataproc, exécuter une tâche Apache Spark dans le cluster, puis modifier le nombre de nœuds de calcul de ce dernier.

.

Vous pouvez découvrir comment effectuer des tâches identiques ou similaires sur la page Démarrage rapide avec l'explorateur d'API, à l'aide de Google Cloud Console sur la page Créer un cluster Dataproc à l'aide de la console Google Cloud et à l'aide des bibliothèques clientes sur la page Créer un cluster Dataproc à l'aide de bibliothèques clientes.

Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

Créer un cluster

Pour créer un cluster nommé example-cluster, exécutez la commande suivante:

gcloud dataproc clusters create example-cluster --region=REGION

La sortie de la commande confirme la création du cluster:

Waiting for cluster creation operation...done.
Created [... example-cluster]

Pour en savoir plus sur la sélection d'une région, consultez la section Régions et zones disponibles. Pour afficher la liste des régions disponibles, vous pouvez exécuter la commande gcloud compute regions list. Pour en savoir plus sur les points de terminaison régionaux, consultez la page Points de terminaison régionaux.

Envoyer une tâche

Pour envoyer un exemple de tâche Spark qui calcule une valeur approximative de pi, exécutez la commande suivante:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=REGION \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Cette commande spécifie les éléments suivants:

  • Vous souhaitez exécuter une tâche spark sur le cluster example-cluster dans la région spécifiée
  • La classe (class) contenant la méthode principale utilisée pour l'application de calcul de pi de la tâche
  • La zone du fichier JAR contenant le code de votre tâche.
  • Tous les paramètres que vous souhaitez transmettre à la tâche. Dans ce cas, le nombre de tâches, c'est-à-dire 1000.

L'exécution du job ainsi que le résultat s'affichent dans la fenêtre de terminal :

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Mettre à jour un cluster

Pour définir le nombre de nœuds de calcul du cluster sur 5, exécutez la commande suivante :

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 5

La sortie de la commande affiche les détails de votre cluster. Exemple :

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Pour rétablir la valeur d'origine du nombre de nœuds de calcul, utilisez la même commande:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 2

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page ne soient facturées sur votre compte Google Cloud , procédez comme suit :

  1. Pour supprimer votre example-cluster, exécutez la commande clusters delete:

    gcloud dataproc clusters delete example-cluster \
        --region=REGION
    

  2. Pour confirmer et finaliser la suppression du cluster, appuyez sur y, puis sur Entrée lorsque vous y êtes invité.

Étape suivante