Diese Anleitung umfasst eine Schritt-für-Schritt-Anleitung für Cloud Shell. Darin werden Dataproc gRPC APIs mithilfe von Google Cloud-Clientbibliotheken für Python programmatisch aufgerufen, um einen Cluster zu erstellen und einen Job an den Cluster zu senden.
In den folgenden Abschnitten wird die Verwendung des Anleitungscodes im GitHub-Repository GoogleCloudPlatform/python-dataproc erläutert.
Schritt-für-Schritt-Anleitung für Cloud Shell ausführen
Klicken Sie zum Ausführen der Anleitung auf Open in Cloud Shell (In Google Cloud Shell öffnen).
Den Code verstehen
Standardanmeldedaten für Anwendungen
Die Schritt-für-Schritt-Anleitung für Cloud Shell bietet eine Authentifizierung anhand der Anmeldedaten Ihres Google Cloud-Projekts. Wenn Sie Code lokal ausführen, sollten Sie zum Authentifizieren Ihres Codes die Dienstkonto-Anmeldedaten verwenden.
Dataproc-Cluster erstellen
Die folgenden Werte werden zum Erstellen des Clusters festgelegt:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird
- Der Name des Clusters
- Die Clusterkonfiguration, in der ein Master und zwei primäre Worker angegeben sind
Für die verbleibenden Clustereinstellungen werden die Standardkonfigurationseinstellungen verwendet. Sie können die Standard-Clusterkonfigurationseinstellungen überschreiben. Zum Beispiel haben Sie kann sekundäre VMs hinzufügen (Standard = 0) oder eine Nicht-Standard-VM angeben VPC-Netzwerk für den Cluster. Weitere Informationen finden Sie unter CreateCluster.
Job senden
Für die Aufgabe werden die folgenden Werte festgelegt:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird
- Die Jobkonfiguration, die den Clusternamen und die Cloud Storage-Instanz angibt Dateipfad (URI) des PySpark-Jobs
Weitere Informationen finden Sie unter SubmitJob.
Cluster löschen
Die folgenden Werte sind festgelegt, um den Cluster zu löschen:
- Das Projekt, in dem der Cluster erstellt wird.
- Die Region, in der der Cluster erstellt wird
- Der Name des Clusters
Weitere Informationen finden Sie unter DeleteCluster.