Dataproc-Cluster erstellen
Voraussetzungen:
Name:Der Clustername muss mit einem Kleinbuchstaben beginnen, gefolgt von bis zu 51 Kleinbuchstaben, Ziffern und Bindestrichen. Das letzte Zeichen darf kein Bindestrich sein.
Clusterregion: Sie müssen eine
global
oder eine bestimmte Region für den Cluster angeben. Die globale Region ist ein spezieller Endpunkt für mehrere Regionen, der Instanzen in jeder benutzerdefinierten Compute Engine-Zone bereitstellen kann. Sie können auch bestimmte Regionen wieus-east1
odereurope-west1
angeben, um Clusterressourcen wie VM-Instanzen und Clustermetadaten, die in Cloud Storage gespeichert sind, zu isolieren, innerhalb der vom Nutzer angegebenen Region.- Weitere Informationen zu globalen und regionalen Endpunkten finden Sie unter Regionale Endpunkte.
- Informationen zum Auswählen von Regionen finden Sie unter Verfügbare Regionen und Zonen. Sie können auch den Befehl
gcloud compute regions list
ausführen, um eine Liste der verfügbaren Regionen aufzurufen.
Konnektivität: Compute Engine-VM-Instanzen (VMs) in einem Dataproc-Cluster, die aus Master- und Worker-VMs bestehen, erfordern eine vollständige interne IP-Netzwerk-Cross-Konnektivität. Diese Konnektivität wird durch das
default
-VPC-Netzwerk bereitgestellt (siehe Dataproc-Netzwerkkonfiguration).
gcloud
Führen Sie zum Erstellen eines Dataproc-Clusters in der Befehlszeile den Cloud SDK-Befehl gcloud Dataproc-Cluster erstellen lokal in einem Terminalfenster oder in Cloud Shell aus.gcloud dataproc clusters create cluster-name \ --region=region
Der obige Befehl erstellt einen Cluster mit standardmäßigen Dataproc-Diensteinstellungen für Ihre Master- und Worker-VM-Instanzen, Laufwerksgrößen und -typen, Netzwerktyp, Region und Zone, in der Ihr Cluster bereitgestellt wird, und andere Clustereinstellungen. Weitere Informationen dazu, wie Sie mit Befehlszeilen-Flags Clustereinstellungen anpassen können, finden Sie im Befehl gcloud dataproc clusters create.
Erstellen Sie einen Cluster mit einer YAML-Datei
- Führen Sie den folgenden
gcloud
-Befehl aus, um die Konfiguration eines vorhandenen Dataproc-Clusters in eine YAML-Datei zu exportieren.gcloud dataproc clusters export my-existing-cluster --destination cluster.yaml
- Erstellen Sie einen neuen Cluster. Dazu importieren Sie die Konfiguration der YAML-Datei.
gcloud dataproc clusters import my-new-cluster --source cluster.yaml
Hinweis: Während des Exportvorgangs werden clusterspezifische Felder (z. B. der Clustername), Nur-Ausgabe-Felder und automatisch angewendete Labels gefiltert. Diese Felder sind in der importierten YAML-Datei, die zum Erstellen eines Clusters verwendet wurde, nicht zulässig.
REST UND BEFEHLSZEILE
In diesem Abschnitt wird erläutert, wie Sie einen Cluster mit erforderlichen Werten und der Standardkonfiguration (1 Hauptcluster, 2 Worker) erstellen.
Bevor Sie eine der Anfragedaten verwenden, nehmen Sie folgende Ersetzungen vor:
- project-id: GCP-Projekt-ID
- region: Cluster-Region
- clusterName: Clustername
HTTP-Methode und URL:
POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters
JSON-Text der Anfrage:
{ "clusterName": "cluster-name", "config": {} }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/project-id/regions/region/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "cluster-name", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
Console
Öffnen Sie in Ihrem Browser die Dataproc-Seite Cluster erstellen in der Google Cloud Console und klicken Sie dann in der Zeile Compute-Engine auf der Seite Dataproc-Cluster in Compute Engine erstellen auf Erstellen. Der Bereich Cluster einrichten wird mit Feldern ausgewählt, die mit Standardwerten gefüllt sind. Sie können die einzelnen Felder auswählen und die Standardwerte bestätigen oder ändern, um Ihren Cluster anzupassen.
Klicken Sie auf Erstellen, um den Cluster zu erstellen. Der Clustername wird auf der Seite Cluster angezeigt. Nach der Bereitstellung des Clusters wird sein Status in „Wird ausgeführt“ geändert. Klicken Sie auf den Clusternamen, um die Seite „Clusterdetails“ zu öffnen. Hier können Sie Jobs, Instanzen und Konfigurationseinstellungen für den Cluster überprüfen und eine Verbindung zu den Weboberflächen herstellen, die auf Ihrem Cluster ausgeführt werden.
Go
- Installieren Sie die Clientbibliothek.
- Standardanmeldedaten für Anwendungen einrichten
- Führen Sie den Code aus.
Java
- Installieren Sie die Clientbibliothek.
- Standardanmeldedaten für Anwendungen einrichten
- Führen Sie den Code aus.
Node.js
- Installieren Sie die Clientbibliothek.
- Standardanmeldedaten für Anwendungen einrichten
- Führen Sie den Code aus.
Python
- Installieren Sie die Clientbibliothek.
- Standardanmeldedaten für Anwendungen einrichten
- Führen Sie den Code aus.