Kurzanleitung: Dataproc-Cluster mit der Cloud Console erstellen

Dataproc-Cluster mit der Cloud Console erstellen

Auf dieser Seite erfahren Sie, wie Sie mit der Google Cloud Console einen Dataproc-Cluster erstellen, einen einfachen Apache Spark-Job im Cluster ausführen und dann die Anzahl der Worker im Cluster ändern.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist.

  4. Dataproc API aktivieren.

    Aktivieren Sie die API

  5. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  6. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist.

  7. Dataproc API aktivieren.

    Aktivieren Sie die API

Cluster erstellen

  1. Rufen Sie in der Cloud Console die Dataproc-Seite Cluster auf.

    Zu den Clustern

  2. Klicken Sie auf Cluster erstellen.

  3. Geben Sie im Feld Clustername example-cluster ein.

  4. Wählen Sie in den Listen Region und Zone eine Region und eine Zone aus.

    Sie können eine bestimmte Region auswählen, z. B. us-east1 oder europe-west1, um Ressourcen wie VM-Instanzen sowie Cloud Storage- und Metadaten-Speicherorte zu isolieren, die von Dataproc in der angegebenen Region genutzt werden. Sie können auch global auswählen. Dies ist ein spezieller multiregionaler Endpunkt, der Instanzen in einer beliebigen benutzerdefinierten Compute Engine-Zone bereitstellen kann. Weitere Informationen finden Sie unter Verfügbare Regionen und Zonen und Regionale Endpunkte.

  5. Für alle anderen Optionen verwenden Sie die Standardeinstellungen.

  6. Klicken Sie auf Erstellen, um den Cluster zu erstellen.

    Der neue Cluster wird in einer Liste auf der Seite Cluster angezeigt. Der Status lautet Provisioning, bis der Cluster einsatzbereit ist. Anschließend ändert sich der Status in Running. Die Bereitstellung des Clusters kann einige Minuten dauern.

Spark-Job senden

Senden Sie einen Spark-Job, der den Wert von Pi schätzt:

  1. Klicken Sie im Dataproc-Navigationsmenü auf Jobs.
  2. Klicken Sie auf der Seite Jobs auf Job senden und gehen Sie dann so vor:

    1. Klicken Sie im Feld Cluster auf Durchsuchen.
    2. Klicken Sie in der Zeile für example-cluster auf Auswählen.
    3. Verwenden Sie im Feld Job-ID die Standardeinstellung oder geben Sie eine ID an, die für Ihr Google Cloud-Projekt eindeutig ist.
    4. Wählen Sie für Jobtyp die Option Spark aus.
    5. Geben Sie im Feld Hauptklasse oder JAR-Datei org.apache.spark.examples.SparkPi ein.
    6. Geben Sie im Feld Jar-Dateien file:///usr/lib/spark/examples/jars/spark-examples.jar ein.
    7. Geben Sie im Feld Argumente den Wert 1000 ein, um die Anzahl der Aufgaben festzulegen.

    8. Klicken Sie auf Senden.

      Der Job wird auf der Seite Jobdetails angezeigt. Der Jobstatus lautet Aktiv oder Wird gestartet und ändert sich dann in Erfolgreich, nachdem er gesendet wurde.

      Um zu vermeiden, dass in der Ausgabe gescrollt werden soll, klicken Sie auf Zeilenumbruch: Aus. Die Ausgabe sieht in etwa so aus:

      Pi is roughly 3.1416759514167594
      

      Zum Aufrufen von Jobdetails klicken Sie auf den Tab Configuration (Konfiguration).

Cluster aktualisieren

Aktualisieren Sie Ihren Cluster, indem Sie die Anzahl der Worker-Instanzen ändern:

  1. Klicken Sie im Navigationsmenü auf Clusters.
  2. Klicken Sie in der Liste der Cluster auf example-cluster.
  3. Klicken Sie auf der Seite Clusterdetails auf den Tab Konfiguration.

    Ihre Clustereinstellungen werden angezeigt.

  4. Klicken Sie auf  Bearbeiten.

  5. Geben Sie im Feld Worker-Knoten 5 ein.

  6. Klicken Sie auf Speichern.

Der Cluster wurde aktualisiert. Wenn Sie die Anzahl der Worker-Knoten auf den ursprünglichen Wert reduzieren möchten, gehen Sie genauso vor.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:

  1. Klicken Sie auf der Seite Clusterdetails für example-cluster auf Löschen, um den Cluster zu löschen.
  2. Klicken Sie auf Löschen, um das Löschen des Clusters zu bestätigen.

Weitere Informationen