Dataproc unterstützt sowohl einen einzelnen "globalen" Endpunkt als auch regionale Endpunkte, die auf Compute Engine-Zonen basieren.
Globaler Endpunkt: Der "globale" Endpunkt ist ein spezieller Namespace mit mehreren Regionen, der in jeder benutzerdefinierten Compute Engine-Zone mit Dataproc-Ressourcen interagieren kann.
Regionale Endpunkte: Jede Dataproc-Region stellt einen unabhängigen Ressourcen-Namespace dar, der auf die Bereitstellung von Compute Engine-Zonen innerhalb der Region beschränkt ist. Sie können insbesondere verschiedene Regionen wie "us-east1" oder "europe-west1" angeben, um Ressourcen (einschließlich VM-Instanzen und Cloud Storage) und Metadatenspeicherorte, die von Dataproc verwendet werden, innerhalb der benutzerdefinierten Region zu isolieren. Dies ist deshalb möglich, da die zugrunde liegende Infrastruktur für Dataproc, einschließlich der Steuerungsebene, in jeder Region bereitgestellt wird. Der regionale Namespace entspricht dem Segment /regions/<region>
der Dataproc-Ressourcen-URIs, auf die verwiesen wird.
Vorteile regionaler Endpunkte:
- Wenn Sie Dataproc in mehreren Regionen verwenden, kann die Angabe eines regionalen Endpunkts eine bessere regionale Isolierung und Schutz bieten.
- Eine bessere Leistung können Sie erzielen, wenn Sie regionale Endpunkte auswählen, insbesondere basierend auf der geografischen Region, im Vergleich zum "globalen" multiregionalen Namespace.
- Wenn Sie beim Erstellen eines Clusters einen regionalen Endpunkt angeben, müssen Sie keine Zone innerhalb der Region angeben. Die automatische Zonenplatzierung in Dataproc wählt die Zone für Sie aus.
Semantik regionaler Endpunkte
Namen regionaler Endpunkte folgen einer Standard-Namenskonvention basierend auf Compute Engine-Regionen.
Beispiel: Der Name für die zentrale Region der USA lautet us-central1
und der Name der Region Westeuropa ist europe-west1
. Führen Sie den Befehl gcloud compute regions list
aus, um eine Liste der verfügbaren Regionen anzuzeigen.
Regionale Endpunkte verwenden
gcloud
Geben Sie eine Region oder einen multiregionalen Standort mithilfe der Google Cloud-Befehlszeile mit dem Flag --region
an.
gcloud dataproc clusters create cluster-name \ --region=region \ other args ...
REST API
Verwenden Sie den URL-Parameter region
in einer clusters.create-Anfrage, um die Region oder den "globalen" multiregionalen Endpunkt für Ihren Cluster anzugeben.
Der Parameter zoneUri
muss im Anfragetext für einen globalen Endpunkt angegeben werden. Sie können die Zone für einen regionalen Endpunkt angeben oder sie leer lassen, damit über die automatische Zonenplatzierung in Dataproc die Zone für Ihren Cluster ausgewählt wird.
gRPC
Der gRPC-Standardendpunkt greift auf den multiregionalen Namespace global
zu. Wenn Sie einen regionalen Endpunkt verwenden möchten, konfigurieren Sie den Endpunkt mit der Adresse auf dem Transport des Clients. Verwenden Sie dabei das folgende Muster:
region-dataproc.googleapis.com
Python (google-cloud-python) Beispiel:
from google.cloud import dataproc_v1
from google.cloud.dataproc_v1.gapic.transports import cluster_controller_grpc_transport
transport = cluster_controller_grpc_transport.ClusterControllerGrpcTransport(
address='us-central1-dataproc.googleapis.com:443')
client = dataproc_v1.ClusterControllerClient(transport)
project_id = 'my-project'
region = 'us-central1'
cluster = {...}
Java (google-cloud-java) Beispiel:
ClusterControllerSettings settings =
ClusterControllerSettings.newBuilder()
.setEndpoint("us-central1-dataproc.googleapis.com:443")
.build();
try (ClusterControllerClient clusterControllerClient = ClusterControllerClient.create(settings)) {
String projectId = "my-project";
String region = "us-central1";
Cluster cluster = Cluster.newBuilder().build();
Cluster response =
clusterControllerClient.createClusterAsync(projectId, region, cluster).get();
}
Console
Geben Sie unter „Cluster einrichten“ auf der Dataproc-Seite Create a cluster (Cluster erstellen) in der Google Cloud Console eine Dataproc-Region an.
Weitere Informationen
- Geografie und Regionen
- Compute Engine → Regionen und Zonen
- Compute Engine → Globale, regionale und zonale Ressourcen
- Automatische Zonenplatzierung in Dataproc