Diese Anleitung umfasst eine Schritt-für-Schritt-Anleitung für Cloud Shell. Darin werden Dataproc gRPC APIs mithilfe von Google Cloud-Clientbibliotheken für Python programmatisch aufgerufen, um einen Cluster zu erstellen und einen Job an den Cluster zu senden.
In den folgenden Abschnitten wird die Verwendung des Anleitungscodes im GitHub-Repository GoogleCloudPlatform/python-dataproc erläutert.
Schritt-für-Schritt-Anleitung für Cloud Shell ausführen
Klicken Sie zum Ausführen der Anleitung auf Open in Cloud Shell (In Google Cloud Shell öffnen).
Den Code verstehen
Standardanmeldedaten für Anwendungen
Die Schritt-für-Schritt-Anleitung für Cloud Shell bietet eine Authentifizierung anhand der Anmeldedaten Ihres Google Cloud-Projekts. Wenn Sie Code lokal ausführen, sollten Sie zum Authentifizieren Ihres Codes die Dienstkonto-Anmeldedaten verwenden.
Dataproc-Cluster erstellen
Die folgenden Werte werden für das Erstellen des Clusters festgelegt:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird
- Der Name des Clusters
- Die Clusterkonfiguration, in der ein Master und zwei primäre Worker angegeben sind
Für die übrigen Clustereinstellungen werden die Standardkonfigurationseinstellungen verwendet. Sie können die Standard-Clusterkonfigurationseinstellungen überschreiben. Sie können beispielsweise sekundäre VMs hinzufügen (Standard = 0) oder ein nicht standardmäßiges VPC-Netzwerk für den Cluster angeben. Weitere Informationen finden Sie unter CreateCluster.
Job senden
Für die Aufgabe werden die folgenden Werte festgelegt:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird
- Die Jobkonfiguration, in der der Clustername und der Cloud Storage-Pfad (URI) des PySpark-Jobs angegeben sind
Weitere Informationen finden Sie unter SubmitJob.
Cluster löschen
Die folgenden Werte werden festgelegt, um den Cluster zu löschen:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird
- Der Name des Clusters
Weitere Informationen finden Sie unter DeleteCluster.