Envoyer une tâche Spark à l'aide d'un modèle

Cette page vous explique comment utiliser un modèle Google APIs Explorer pour exécuter une tâche Spark simple sur un cluster Dataproc existant.

Pour découvrir d'autres façons d'envoyer une tâche à un cluster Dataproc, consultez les pages suivantes :

Avant de commencer

Avant de pouvoir exécuter une tâche Dataproc, vous devez créer le cluster d'une ou de plusieurs machines virtuelles (VM) pour l'exécuter. Vous pouvez créer un cluster à l'aide de l'explorateur d'API, de la console Google Cloud, de l'outil de ligne de commande gcloud CLI gcloud ou des guides de démarrage rapide sur l'utilisation des bibliothèques clientes Cloud.

Envoyer un job

Pour envoyer un exemple de tâche Apache Spark qui calcule une valeur approximative de pi, remplissez et exécutez le modèle Try this API (Essayer cette API) de Google APIs Explorer.

  1. Paramètres de requête :

    1. Insérez votre projectId.
    2. Spécifiez la région où se trouve votre cluster (confirmez ou remplacez "us-central1"). La région de votre cluster est répertoriée sur la page Clusters Dataproc dans la console Google Cloud.
  2. Corps de la requête :

    1. job.placement.clusterName : nom du cluster dans lequel la tâche sera exécutée (confirmez ou remplacez "example-cluster").
    2. job.sparkJob.args : "1000", le nombre de tâches.
    3. job.sparkJob.jarFileUris : "file:///usr/lib/spark/examples/jars/spark-examples.jar". Il s'agit du chemin d'accès au fichier local sur le nœud maître du cluster Dataproc, où le fichier JAR contenant le code de la tâche Spark Scala est installé.
    4. job.sparkJob.mainClass : "org.apache.spark.examples.SparkPi". Il s'agit de la méthode principale de calcul d'une valeur approximative de pi de l'application Scala.
  3. Cliquez sur EXÉCUTER. La première fois que vous exécutez le modèle d'API, vous pouvez être invité à choisir votre compte Google et à vous y connecter, puis à autoriser Google APIs Explorer à accéder à votre compte. Si la requête aboutit, la réponse JSON indique que la requête d'envoi de tâche est en attente.

  4. Pour afficher le résultat de la tâche, ouvrez la page Jobs Dataproc dans la console Google Cloud, puis cliquez sur l'ID de tâche en haut (le plus récent). Activez l'option RENVOI À LA LIGNE AUTOMATIQUE pour afficher les lignes qui dépassent de la marge de droite.

    ...
    Pi is roughly 3.141804711418047
    ...
    

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

  1. Si vous n'avez pas besoin du cluster pour explorer les autres guides de démarrage rapide ou pour exécuter d'autres tâches, utilisez l'explorateur d'API, la console Google Cloud, l'outil de ligne de commande gcloud CLI gcloud ou les bibliothèques clientes Cloud pour supprimer le cluster.

Étapes suivantes