Kurzanleitung: Konsole verwenden

Auf dieser Seite erfahren Sie, wie Sie mit der Google Cloud Console einen Dataproc-Cluster erstellen, einen einfachen Apache Spark-Job im Cluster ausführen und dann die Anzahl der Worker im Cluster ändern.

Erfahren Sie, wie Sie die gleichen Aufgaben über Schnellstarts mit dem API Explorer und Schnellstart mit dem Befehlszeilentool gcloud ausführen können.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

  4. Aktivieren Sie die Dataproc API.

    Aktivieren Sie die API

  5. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  6. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

  7. Aktivieren Sie die Dataproc API.

    Aktivieren Sie die API

Cluster erstellen

  1. Öffnen Sie in der Cloud Console die Seite Cloud Dataproc-Cluster.
  2. Klicken Sie auf Cluster erstellen.
  3. Geben Sie in das Feld Name example-cluster ein.
  4. Wählen Sie eine Region und Zone für den Cluster aus den Drop-down-Menüs Region und Zone aus. Sie können auch verschiedene Regionen wie us-east1 oder europe-west1 auswählen, um Ressourcen (einschließlich VM-Instanzen und Cloud Storage) und Metadatenspeicherorte zu isolieren, die von Dataproc innerhalb der definierten Region verwendet werden. Sie können auch eine global-Region auswählen. Dies ist ein spezieller Endpunkt für mehrere Regionen, der in der Lage ist, Instanzen in jeder benutzerdefinierten Compute Engine-Zone bereitzustellen. Weitere Informationen zum Unterschied zwischen globalen und regionalen Endpunkten finden Sie unter Regionale Endpunkte. Informationen zum Auswählen von Regionen und Zonen finden Sie unter Verfügbare Regionen und Zonen.
  5. Verwenden Sie die verfügbaren Standardwerte für alle anderen Optionen.
  6. Klicken Sie auf Erstellen, um den Cluster zu erstellen.

Der neue Cluster wird nun in der Liste "Cluster" angezeigt. Der Cluster verbleibt solange im Status "Wird bereitgestellt", bis er zur Verwendung bereit ist. Anschließend wechselt er in den Status "Wird ausgeführt".

Job senden

So führen Sie einen Spark-Beispieljob aus:

  1. Wählen Sie in der linken Navigation Jobs aus, um zur Dataproc-Jobansicht zu wechseln.
  2. Klicken Sie auf Job senden.
  3. Sie können die Job-ID akzeptieren oder eine eigene ID angeben, die innerhalb des Projekts eindeutig sein muss.
  4. Wählen Sie die Region des neuen example-clusters aus.
  5. Wählen Sie example-cluster aus dem Drop-down-Menü Cluster aus.
  6. Wählen Sie Spark aus dem Drop-down-Menü Jobtyp aus.
  7. Geben Sie org.apache.spark.examples.SparkPi in das Feld Hauptklasse oder JAR ein.
  8. Geben Sie file:///usr/lib/spark/examples/jars/spark-examples.jar in das Feld JAR-Dateien ein.
  9. Geben Sie 1000 in das Feld Argumente ein, um die Anzahl der Aufgaben festzulegen.
  10. Klicken Sie auf Senden.

Der Job wird in der Liste Jobs zusammen mit den anderen Jobs des Projekts und zugehörigen Clustern, Typen und aktuellen Status angezeigt. Der Status des Jobs wechselt von anfangs "Wird ausgeführt" zu "Erfolgreich". So zeigen Sie die Ausgabe des abgeschlossenen Jobs an:

  1. Klicken Sie in der Liste Jobs auf die Job-ID.
  2. Wählen Sie Zeilenumbruch, um Scrollen zu vermeiden.

Sie sehen nun, dass ein ungefährer PI-Wert berechnet wurde.

Cluster aktualisieren

So ändern Sie die Anzahl der Worker-Instanzen in Ihrem Cluster:

  1. Wählen Sie im linken Navigationsbereich Cluster aus, um zur Ansicht "Cloud Dataproc-Cluster" zurückzukehren.
  2. Klicken Sie in der Liste Cluster auf example-cluster. Standardmäßig enthält die Seite eine Übersicht über die CPU-Auslastung des Clusters.
  3. Klicken Sie auf Konfiguration, um die aktuellen Einstellungen des Clusters anzuzeigen.
  4. Klicken Sie auf Bearbeiten. Die Anzahl der Worker-Knoten kann jetzt bearbeitet werden.
  5. Geben Sie 5 in das Feld Worker-Knoten ein.
  6. Klicken Sie auf Speichern.

Der Cluster wurde aktualisiert. Verwenden Sie das gleiche Verfahren, um die Anzahl der Worker-Knoten auf den ursprünglichen Wert zu reduzieren.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

  1. Klicken Sie auf der Cluster-Seite "example-cluster" auf Löschen, um den Cluster zu löschen. Sie werden aufgefordert, das Löschen des Clusters zu bestätigen. Klicken Sie auf OK.

Nächste Schritte