Diese Seite wurde von der Cloud Translation API übersetzt.

Dataproc-Cluster mit der gcloud CLI erstellen

Auf dieser Seite wird erläutert, wie Sie mit dem gcloud-Befehlszeilentool der Google Cloud CLI einen Dataproc-Cluster erstellen, einen Apache Spark-Job im Cluster ausführen und dann die Anzahl der Worker im Cluster ändern.

Am einfachsten kann das gcloud-Befehlszeilentool von Cloud Shell ausgeführt werden, auf dem die Google Cloud CLI vorinstalliert ist. Cloud Shell ist für Google Cloud -Kunden kostenlos. Für die Verwendung von Cloud Shell benötigen Sie einGoogle Cloud Projekt

Informationen zum Ausführen derselben oder ähnlicher Aufgaben finden Sie unter Kurzanleitungen für den Start mit dem API Explorer, in der Google Cloud -Console unter Dataproc-Cluster mit der Google Cloud -Console erstellen und mit den Clientbibliotheken unter Dataproc-Cluster mit Clientbibliotheken erstellen.

Hinweise

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Cluster erstellen

Führen Sie den folgenden Befehl aus, um einen Cluster namens example-cluster zu erstellen:

gcloud dataproc clusters create example-cluster --region=REGION

Die Befehlsausgabe bestätigt die Clustererstellung:

Waiting for cluster creation operation...done.
Created [... example-cluster]

Informationen zum Auswählen einer Region finden Sie unter Verfügbare Regionen und Zonen. Mit dem Befehl gcloud compute regions list können Sie eine Liste der verfügbaren Regionen aufrufen. Weitere Informationen zu regionalen Endpunkten finden Sie unter Regionale Endpunkte.

Job senden

Um einen Spark-Beispieljob zu senden, der einen ungefähren Wert für pi berechnet, führen Sie den folgenden Befehl aus:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=REGION \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Mit diesem Befehl wird Folgendes angegeben:

Sie möchten einen spark-Job im Cluster example-cluster in der angegebenen Region ausführen
Die class mit der primären Methode für die Anwendung zur Berechnung des PI-Wertes
Den Speicherort der JAR-Datei, die den Code des Jobs enthält
Alle Parameter, die Sie an den Job übergeben möchten – in diesem Fall die Anzahl der Aufgaben, also 1000

Parameter, die an den Job übergeben werden, müssen einem doppelten Bindestrich (--) folgen. Weitere Informationen finden Sie in der Google Cloud CLI-Dokumentation.

Die aktuelle bzw. endgültige Ausgabe des Jobs wird im Terminalfenster angezeigt:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Cluster aktualisieren

Um die Anzahl der Worker im Cluster auf fünf zu ändern, führen Sie den folgenden Befehl aus:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 5

In der Befehlsausgabe werden die Details Ihres Clusters angezeigt. Beispiel:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

Verwenden Sie denselben Befehl, um die Anzahl der Worker-Knoten auf den ursprünglichen Wert zu reduzieren:

gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers 2

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud -Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:

Führen Sie den Befehl clusters delete aus, um Ihre example-cluster zu löschen:
```
gcloud dataproc clusters delete example-cluster \
    --region=REGION
```
Wenn Sie dazu aufgefordert werden, drücken Sie zur Bestätigung und zum Abschließen des Löschvorgangs y und dann die Eingabetaste.

Nächste Schritte

Informationen, wie Sie einen Spark-Scala-Job schreiben und ausführen