Dataproc-Cluster mit der Google Cloud Console erstellen

Auf dieser Seite erfahren Sie, wie Sie mit der Google Cloud Console einen Dataproc-Cluster erstellen, einen einfachen Apache Spark-Job im Cluster ausführen und dann die Anzahl der Worker im Cluster ändern.


Klicken Sie auf Anleitung, um eine detaillierte Anleitung für diese Aufgabe direkt in der Google Cloud Console aufzurufen.

Anleitung


Hinweise

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

Cluster erstellen

  1. Rufen Sie in der Google Cloud Console die Dataproc-Seite Cluster auf.

    Zu den Clustern

  2. Klicken Sie auf Cluster erstellen.

  3. Klicken Sie im Dialogfeld Dataproc-Cluster erstellen in der Zeile Cluster in Compute Engine auf Erstellen.

  4. Geben Sie im Feld Clustername example-cluster ein.

  5. Wählen Sie in den Listen Region und Zone eine Region und eine Zone aus.

    Wählen Sie eine Region aus (z. B. us-east1 oder europe-west1), um Ressourcen wie VM-Instanzen, Cloud Storage und Metadatenspeicherorte zu isolieren, die von Dataproc in der Region verwendet werden. Weitere Informationen finden Sie unter Verfügbare Regionen und Zonen und Regionale Endpunkte.

  6. Verwenden Sie für die anderen Optionen die Standardeinstellungen.

  7. Klicken Sie auf Erstellen, um den Cluster zu erstellen.

    Der neue Cluster wird in einer Liste auf der Seite Cluster angezeigt. Der Status ist Wird bereitgestellt, bis der Cluster zur Verwendung bereit ist. Anschließend wechselt er zu Aktiv. Die Bereitstellung des Clusters kann einige Minuten dauern.

Spark-Job senden

Senden Sie einen Spark-Job, der einen Pi-Wert berechnet:

  1. Klicken Sie im Dataproc-Navigationsmenü auf Jobs.
  2. Klicken Sie auf der Seite Jobs auf Job senden und gehen Sie dann so vor:

    1. Klicken Sie im Feld Cluster auf Durchsuchen.
    2. Klicken Sie in der Zeile für example-cluster auf Auswählen.
    3. Verwenden Sie im Feld Job-ID die Standardeinstellung oder geben Sie eine ID an, die für Ihr Google Cloud-Projekt eindeutig ist.
    4. Wählen Sie als Jobtyp die Option Spark aus.
    5. Geben Sie im Feld Hauptklasse oder JAR den Wert org.apache.spark.examples.SparkPi ein.
    6. Geben Sie im Feld Jar-Dateien den Wert file:///usr/lib/spark/examples/jars/spark-examples.jar ein.
    7. Geben Sie im Feld Argumente den Wert 1000 ein, um die Anzahl der Aufgaben festzulegen.

    8. Klicken Sie auf Senden.

      Ihr Job wird auf der Seite Jobdetails angezeigt. Der Jobstatus ist Wird ausgeführt oder Wird gestartet und ändert sich nach dem Einreichen zu Erfolgreich.

      Wenn Sie nicht in der Ausgabe scrollen möchten, klicken Sie auf Zeilenumbruch: Aus. Die Ausgabe sieht dann in etwa so aus:

      Pi is roughly 3.1416759514167594
      

      Klicken Sie auf den Tab Konfiguration, um Jobdetails aufzurufen.

Cluster aktualisieren

Aktualisieren Sie den Cluster, indem Sie die Anzahl der Worker-Instanzen ändern:

  1. Klicken Sie im Navigationsmenü auf Cluster.
  2. Klicken Sie in der Liste der Cluster auf example-cluster.
  3. Klicken Sie auf der Seite Clusterdetails auf den Tab Konfiguration.

    Die Clustereinstellungen werden angezeigt.

  4. Klicken Sie auf  Bearbeiten.

  5. Geben Sie im Feld Worker-Knoten 5 ein.

  6. Klicken Sie auf Speichern.

Der Cluster wurde aktualisiert. Wenn Sie die Anzahl der Worker-Knoten auf den ursprünglichen Wert reduzieren möchten, gehen Sie genauso vor.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

  1. Klicken Sie auf der Seite Clusterdetails für example-cluster auf Löschen, um den Cluster zu löschen.
  2. Klicken Sie auf Löschen, um zu bestätigen, dass Sie den Cluster löschen möchten.

Nächste Schritte