Démarrage rapide avec l'outil de ligne de commande gcloud

Cette page vous explique comment utiliser l'outil de ligne de commande gcloud du SDK Google Cloud pour créer un cluster Cloud Dataproc, exécuter une tâche Apache Spark simple dans le cluster, puis modifier le nombre de nœuds de calcul de ce dernier.

Vous pouvez découvrir comment effectuer des tâches identiques ou similaires sur la page Démarrage rapide avec l'explorateur d'API, à l'aide de Google Cloud Console sur la page Démarrage rapide avec la console et à l'aide des bibliothèques clientes sur la page Guides de démarrage rapide avec les bibliothèques clientes Cloud.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.

  4. Activez l'API Dataproc.

    Activer l'API

Créer un cluster

Exécutez la commande suivante pour créer un cluster nommé example-cluster. Pour en savoir plus sur la sélection d'une région, consultez la page Régions et zones disponibles (vous pouvez également exécuter la commande gcloud compute regions list pour afficher la liste des régions disponibles). Consultez également la page Points de terminaison régionaux pour en savoir plus sur la différence entre les points de terminaison global et régionaux.

gcloud dataproc clusters create example-cluster --region=region

La création du cluster est confirmée dans le résultat de la commande:

...
Waiting for cluster creation operation...done.
Created [... example-cluster]

Envoyer une tâche

Exécutez la commande suivante pour envoyer un exemple de tâche Spark qui calcule une valeur approximative de pi :

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Cette commande spécifie les éléments suivants :

  • que vous souhaitez exécuter une tâche spark sur le cluster example-cluster dans la région spécifiée
  • La classe (class) contenant la méthode principale utilisée pour l'application de calcul de pi de la tâche
  • La zone du fichier JAR contenant le code de votre tâche.
  • Tous les paramètres que vous souhaitez transmettre à la tâche. Dans ce cas, le nombre de tâches, c'est-à-dire 1000.

L'exécution de la tâche ainsi que le résultat s'affichent dans la fenêtre de terminal :

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Mettre à jour un cluster

Pour définir le nombre de nœuds de calcul du cluster sur 5, exécutez la commande suivante :

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 5

Les détails mis à jour de votre cluster sont affichés dans le résultat de la commande :

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Vous pouvez utiliser la même commande pour réduire le nombre de nœuds de calcul à la valeur d'origine :

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 2

Nettoyer

Pour éviter que les ressources utilisées dans ce guide démarrage rapide soient facturées sur votre compte Google Cloud :

  • Exécutez clusters delete pour supprimer votre exemple de cluster.
    gcloud dataproc clusters delete example-cluster \
        --region=region
    
    Vous êtes invité à confirmer la suppression du cluster. Saisissez y pour terminer la suppression.

Étape suivante