Diese Anleitung umfasst eine Schritt-für-Schritt-Anleitung für Cloud Shell. Darin werden Dataproc gRPC APIs mithilfe von Google Cloud-Clientbibliotheken für Python programmatisch aufgerufen, um einen Cluster zu erstellen und einen Job an den Cluster zu senden.
In den folgenden Abschnitten wird die Verwendung des Anleitungscodes im GitHub-Repository GoogleCloudPlatform/python-dataproc erläutert.
Schritt-für-Schritt-Anleitung für Cloud Shell ausführen
Klicken Sie zum Ausführen der Anleitung auf Open in Google Cloud Shell (In Google Cloud Shell öffnen).
Beispielcode für Python
Standardanmeldedaten für Anwendungen
Die Schritt-für-Schritt-Anleitung für Cloud Shell bietet eine Authentifizierung anhand der Anmeldedaten Ihres Google Cloud-Projekts. Wenn Sie Code lokal ausführen, sollten Sie zum Authentifizieren Ihres Codes die Dienstkonto-Anmeldedaten verwenden.
Dataproc-Cluster erstellen
Sie können einen neuen Dataproc-Cluster mit der CreateCluster API erstellen.
Beim Erstellen eines Clusters müssen Sie die folgenden Werte angeben:
- Das Projekt, in dem der Cluster erstellt wird.
- Den Namen des Clusters.
- Die zu verwendende Region. Wenn Sie die Region
global
angeben (im Anleitungscode wird das Flag--global_region
zum Auswählen der globalen Region verwendet), müssen Sie auch eine Zone angeben (siehezone_uri
). Wenn Sie eine nicht globale Region angeben und das Feldzone_uri
frei lassen, wählt die automatische Zonenplatzierung von Dataproc eine Zone für Ihren Cluster aus.
Sie können die Standard-Clusterkonfigurationseinstellungen auch überschreiben. Sie können beispielsweise die Anzahl der Worker angeben (Standard = 2), ob VMs auf Abruf verwendet werden sollen (Standard = 0) und Netzwerkeinstellungen festlegen (Standard = default network
). Weitere Informationen finden Sie unter CreateClusterRequest.
Dataproc-Cluster auflisten
Sie können Cluster innerhalb eines Projekts auflisten, indem Sie die ListClusters API aufrufen. Die Ausgabe gibt ein JSON-Objekt zurück, das die Cluster auflistet. Sie können die JSON-Antwort durchsehen, um Clusterdetails zu drucken.
Job an Dataproc-Cluster senden
Mit der SubmitJob API können Sie einen Job an einen vorhandenen Cluster senden. Wenn Sie einen Job senden, wird er asynchron ausgeführt.
Zum Senden eines Jobs müssen Sie folgende Angaben machen:
- Den Namen des Clusters, an den der Job gesendet wird
- Die zu verwendende Region
- Die Art des gesendeten Jobs, z. B.
Hadoop
,Spark
, PySpark - Jobdetails für die Art des gesendeten Jobs (siehe SubmitJobRequest für weitere Informationen)
Mit dem folgenden Code wird ein Spark-Job an einen Cluster gesendet.
Mit dem Anleitungscode wird standardmäßig der in Spark enthaltene Beispieljob SparkPi ausgeführt.
Dataproc-Cluster löschen
Rufen Sie zum Löschen eines Clusters die DeleteCluster API auf.