Diese Anleitung umfasst eine Schritt-für-Schritt-Anleitung für Cloud Shell. Darin werden Dataproc gRPC APIs mithilfe von Google Cloud-Clientbibliotheken für Python programmatisch aufgerufen, um einen Cluster zu erstellen und einen Job an den Cluster zu senden.
In den folgenden Abschnitten wird die Verwendung des Anleitungscodes im GitHub-Repository GoogleCloudPlatform/python-dataproc erläutert.
Schritt-für-Schritt-Anleitung für Cloud Shell ausführen
Klicken Sie zum Ausführen der Anleitung auf Open in Cloud Shell (In Google Cloud Shell öffnen).
Den Code verstehen
Standardanmeldedaten für Anwendungen
Die Schritt-für-Schritt-Anleitung für Cloud Shell in diesem Tutorial bietet eine Authentifizierung anhand der Anmeldedaten Ihres Google Cloud -Projekts. Wenn Sie Code lokal ausführen, sollten Sie zum Authentifizieren Ihres Codes die Dienstkonto-Anmeldedaten verwenden.
Dataproc-Cluster erstellen
Die folgenden Werte werden festgelegt, um den Cluster zu erstellen:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird.
- Der Name des Clusters
- Die Clusterkonfiguration, die einen Master und zwei primäre Worker angibt
Für die verbleibenden Clustereinstellungen werden die Standardkonfigurationseinstellungen verwendet. Sie können die Standard-Clusterkonfigurationseinstellungen überschreiben. Sie können beispielsweise sekundäre VMs hinzufügen (Standard = 0) oder ein nicht standardmäßiges VPC-Netzwerk für den Cluster angeben. Weitere Informationen finden Sie unter CreateCluster.
Job senden
Die folgenden Werte werden festgelegt, um den Job einzureichen:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird.
- Die Jobkonfiguration, in der der Clusternamen und der Cloud Storage-Dateipfad (URI) des PySpark-Jobs angegeben werden
Weitere Informationen finden Sie unter SubmitJob.
Cluster löschen
Die folgenden Werte sind festgelegt, um das Cluster zu löschen:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird.
- Der Name des Clusters
Weitere Informationen finden Sie unter DeleteCluster.