Envoyer une tâche Spark à l'aide d'un modèle

Cette page vous explique comment utiliser un modèle Google APIs Explorer pour exécuter une tâche Spark simple sur un cluster Dataproc existant.

Pour découvrir d'autres façons d'envoyer une tâche à un cluster Dataproc, consultez les pages suivantes :

Avant de commencer

Avant de pouvoir exécuter une tâche Dataproc, vous devez créer le cluster d'une ou de plusieurs machines virtuelles (VM) pour l'exécuter. Vous pouvez utiliser APIs Explorer, Google Cloud Console, l'outil de ligne de commande gcloud de la CLI gcloud ou les guides de démarrage rapide avec les bibliothèques clientes Cloud pour créer un cluster.

Envoyer une tâche

Pour envoyer un exemple d'application Apache Spark qui calcule une valeur approximative pi, compléter et exécuter le modèle Essayer cette API de Google APIs Explorer ;

  1. Paramètres de requête :

    1. Insérez votre projectId.
    2. Spécifiez la région où se trouve votre cluster (confirmez ou remplacez "us-central1"). Votre cluster est répertoriée sur la ressource Dataproc la page Clusters de la console Google Cloud.
  2. Corps de la requête :

    1. job.placement.clusterName : nom du cluster dans lequel la tâche sera exécutée (confirmez ou remplacez "example-cluster").
    2. job.sparkJob.args : "1000", le nombre de tâches.
    3. job.sparkJob.jarFileUris : "file:///usr/lib/spark/examples/jars/spark-examples.jar". Il s'agit du chemin d'accès au fichier local sur le nœud maître du cluster Dataproc, où le fichier JAR contenant le code de la tâche Spark Scala est installé.
    4. job.sparkJob.mainClass : "org.apache.spark.examples.SparkPi". Il s'agit de la méthode principale de calcul d'une valeur approximative de pi de l'application Scala.
  3. Cliquez sur EXÉCUTER. La première fois que vous exécutez le modèle d'API, vous pouvez être invité à choisir votre compte Google et à vous y connecter, puis à autoriser Google APIs Explorer à accéder à votre compte. Si la requête aboutit, la réponse JSON indique que la requête d'envoi de tâche est en attente.

  4. Pour afficher les résultats du job, ouvrez le Page Jobs Dataproc dans la console Google Cloud, puis cliquez sur l'ID de job le plus récent (le plus récent). Activez l'option RENVOI À LA LIGNE AUTOMATIQUE pour afficher les lignes qui dépassent de la marge de droite.

    ...
    Pi is roughly 3.141804711418047
    ...
    

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

  1. Si vous n'avez pas besoin du cluster pour consulter les autres guides de démarrage rapide ou pour exécuter autres tâches, utilisez la APIs Explorer, la console Google Cloud, gcloud CLI l'outil de ligne de commande gcloud, ou les bibliothèques clientes Cloud pour supprimer le cluster.

Étape suivante