Diese Anleitung umfasst eine Schritt-für-Schritt-Anleitung für Cloud Shell. Darin werden Dataproc gRPC APIs mithilfe von Google Cloud-Clientbibliotheken für Python programmatisch aufgerufen, um einen Cluster zu erstellen und einen Job an den Cluster zu senden.
In den folgenden Abschnitten wird die Verwendung des Anleitungscodes im GitHub-Repository GoogleCloudPlatform/python-dataproc erläutert.
Schritt-für-Schritt-Anleitung für Cloud Shell ausführen
Klicken Sie zum Ausführen der Anleitung auf Open in Cloud Shell (In Google Cloud Shell öffnen).
Den Code verstehen
Standardanmeldedaten für Anwendungen
Die Cloud Shell-Anleitung in dieser Anleitung bietet eine Authentifizierung mit Ihren Google Cloud-Projektanmeldedaten. Wenn Sie Code lokal ausführen, sollten Sie zum Authentifizieren Ihres Codes die Dienstkonto-Anmeldedaten verwenden.
Dataproc-Cluster erstellen
Die folgenden Werte sind für das Erstellen des Clusters festgelegt:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird
- Den Namen des Clusters.
- Die Clusterkonfiguration, die einen Master und zwei primäre Worker angibt
Für die restlichen Clustereinstellungen werden Standardeinstellungen der Konfiguration verwendet. Sie können die Standardeinstellungen der Clusterkonfiguration überschreiben. Sie können beispielsweise sekundäre VMs hinzufügen (Standard = 0) oder ein nicht standardmäßiges VPC-Netzwerk für den Cluster angeben. Weitere Informationen finden Sie unter CreateCluster.
Job senden
Die folgenden Werte sind festgelegt, um den Job zu senden:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird
- Die Jobkonfiguration, die den Clusternamen und den Cloud Storage-Dateipfad (URI) des PySpark-Jobs angibt
Weitere Informationen finden Sie unter SubmitJob.
Cluster löschen
Mit den folgenden Werten wird der Cluster gelöscht:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird
- Den Namen des Clusters.
Weitere Informationen finden Sie unter DeleteCluster.