Créer un cluster Dataproc à l'aide de la gcloud CLI

Cette page vous explique comment utiliser l'outil de ligne de commande gcloud de la CLI Google Cloud pour créer un cluster Google Cloud Dataproc, exécuter une tâche Apache Spark simple dans le cluster, puis modifier le nombre de nœuds de calcul de ce dernier.

Vous pouvez découvrir comment effectuer des tâches identiques ou similaires sur la page Démarrage rapide avec l'explorateur d'API, à l'aide de Google Cloud Console sur la page Créer un cluster Dataproc à l'aide de la console Google Cloud et à l'aide des bibliothèques clientes sur la page Créer un cluster Dataproc à l'aide de bibliothèques clientes.

Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

Créer un cluster

Exécutez la commande suivante pour créer un cluster nommé example-cluster. Pour en savoir plus sur la sélection d'une région, consultez la page Régions et zones disponibles (vous pouvez également exécuter la commande gcloud compute regions list pour afficher la liste des régions disponibles). Consultez également la page Points de terminaison régionaux pour en savoir plus sur les points de terminaison régionaux.

gcloud dataproc clusters create example-cluster --region=region

La création du cluster est confirmée dans le résultat de la commande :

...
Waiting for cluster creation operation...done.
Created [... example-cluster]

Envoyer une tâche

Exécutez la commande suivante pour envoyer un exemple de tâche Spark qui calcule une valeur approximative de pi :

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Cette commande spécifie les éléments suivants :

  • que vous souhaitez exécuter une tâche spark sur le cluster example-cluster dans la région spécifiée
  • La classe (class) contenant la méthode principale utilisée pour l'application de calcul de pi de la tâche
  • La zone du fichier JAR contenant le code de votre tâche.
  • Tous les paramètres que vous souhaitez transmettre à la tâche. Dans ce cas, le nombre de tâches, c'est-à-dire 1000.

L'exécution de la tâche ainsi que le résultat s'affichent dans la fenêtre de terminal :

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Mettre à jour un cluster

Pour définir le nombre de nœuds de calcul du cluster sur 5, exécutez la commande suivante :

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 5

Les détails de votre cluster s'affichent dans le résultat de la commande :

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Vous pouvez utiliser la même commande pour réduire le nombre de nœuds de calcul à la valeur d'origine :

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 2

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

  • Exécutez clusters delete pour supprimer votre exemple de cluster.
    gcloud dataproc clusters delete example-cluster \
        --region=region
    
    Vous êtes invité à confirmer la suppression du cluster. Saisissez y pour terminer la suppression.

Étape suivante