Spark-Job mithilfe einer Vorlage senden

Auf dieser Seite wird beschrieben, wie Sie mit einer Google APIs Explorer-Vorlage einen einfachen Spark-Job auf einem vorhandenen Dataproc-Cluster ausführen.

Weitere Möglichkeiten zum Senden eines Jobs an einen Dataproc-Cluster finden Sie unter:

Hinweise

Bevor Sie einen Dataproc-Job ausführen können, müssen Sie einen Cluster mit einer oder mehreren virtuellen Maschinen (VMs) erstellen, auf denen der Job ausgeführt werden soll. Sie können den APIs Explorer, die Google Cloud Console, die gcloud-Befehlszeile gcloud oder die Kurzanleitungen: Cloud-Clientbibliotheken verwenden nutzen, um einen Cluster zu erstellen.

Job senden

Zum Senden eines Apache Spark-Beispieljobs, der einen ungefähren Pi-Wert berechnet, füllen Sie die Google APIs Explorer-Vorlage API testen aus und führen Sie sie aus.

  1. Anfrageparameter:

    1. Geben Sie die projectId ein.
    2. Geben Sie die Region an, in der sich der Cluster befindet, oder bestätigen Sie "us-central1". Die Region Ihres Clusters wird in der Google Cloud Console auf der Dataproc-Seite Cluster aufgeführt.
  2. Anfragetext:

    1. job.Placement.clusterName: Der Name des Clusters, in dem der Job ausgeführt wird (Bestätigen oder Ersetzen von "example-cluster").
    2. job.sparkJob.args: "1000", die Anzahl der Jobaufgaben.
    3. job.sparkJob.jarFileUris: "file:///usr/lib/spark/examples/jars/spark-examples.jar". Dies ist der lokale Dateipfad auf dem Masterknoten des Dataproc-Clusters, in dem die JAR-Datei installiert ist, die den Spark Scala-Jobcode enthält.
    4. job.sparkJob.mainClass: "org.apache.spark.examples.SparkPi". Das ist die primäre Methode der PI-Berechnungs-Scala-Anwendung des Jobs.
  3. Klicken Sie auf AUSFÜHREN. Wenn Sie die API-Vorlage zum ersten Mal ausführen, werden Sie möglicherweise aufgefordert, ein Google-Konto auszuwählen und sich anzumelden, und autorisieren Sie dann Google APIs Explorer, auf Ihr Konto zuzugreifen. Wenn die Anfrage erfolgreich ist, zeigt die JSON-Antwort, dass die Anfrage zur Jobübermittlung aussteht.

  4. Öffnen Sie zum Anzeigen der Jobausgabe die Seite Dataproc-Jobs in der Google Cloud Console und klicken Sie auf die neueste Job-ID. Klicken Sie auf "LINE WRAP", um Zeilen zu erstellen, die den rechten Rand überschreiten.

    ...
    Pi is roughly 3.141804711418047
    ...
    

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

  1. Wenn Sie die anderen Kurzanleitungen oder Cluster nicht ausführen müssen, verwenden Sie den APIs Explorer, die Google Cloud Console, die gcloud CLI-Befehlszeile gcloud oder die Cloud-Clientbibliotheken, um den Cluster zu löschen.

Nächste Schritte