O Dataproc é compatível com um único endpoint "global" e endpoints regionais com base nas zonas do Compute Engine.
Endpoint global: o endpoint "global" é um namespace especial de várias regiões capaz de interagir com recursos do Dataproc em qualquer zona do Compute Engine especificada pelo usuário.
Endpoints regionais: cada região do Dataproc constitui um namespace de recursos independente
restrito à implantação de instâncias em zonas do Google Compute Engine
dentro da região. Especificamente, é possível especificar regiões distintas, como "us-east1"
ou "europe-west1", para isolar recursos (incluindo instâncias de VM e Cloud Storage)
e locais de armazenamento de metadados utilizados pelo Dataproc na
região especificada pelo usuário. Isso é possível porque a infraestrutura subjacente
do Dataproc, incluindo o plano de controle, é
implantada em cada região. O namespace regional corresponde ao segmento
/regions/<region>
dos
URIs de recursos do Dataproc referenciados.
Benefícios dos endpoints regionais:
- Se você usar o Dataproc em várias regiões, especificar um endpoint regional poderá fornecer melhor isolamento e proteção regionais.
- Você pode notar um melhor desempenho selecionando endpoints regionais, especialmente com base na região geográfica, em comparação com o namespace multirregional "global".
- Se você especificar um endpoint regional ao criar um cluster, não será preciso especificar uma zona na região. A Colocação em zona automática do Dataproc escolherá a zona para você.
Semântica do endpoint regional
Os nomes de endpoint regionais seguem uma convenção de nomenclatura padrão com base em
regiões do Google Compute Engine.
Por exemplo, o nome da região central dos EUA é us-central1
e o nome
da região da Europa Ocidental é europe-west1
. Execute o comando gcloud compute regions list
para ver uma lista de regiões disponíveis.
Como usar endpoints regionais
gcloud
Especifique uma região ou endpoint multirregional usando a
ferramenta de linha de comando gcloud
com a sinalização --region
.
gcloud dataproc clusters create cluster-name \ --region=region \ other args ...
API REST
Use o parâmetro de URL region
em uma solicitação
clusters.create para especificar a região ou o endpoint multirregional "global" para o cluster.
O parâmetro zoneUri
precisa ser especificado no corpo da solicitação
de um endpoint global. Especifique a zona para um endpoint regional ou deixe-a
em branco para permitir que a
Colocação em zona automática do Dataproc
selecione a zona do cluster.
gRPC
O endpoint gRPC padrão acessa o
namespace multirregional global
. Para usar um endpoint regional, configure o endpoint para o endereço no
transporte do cliente usando o seguinte padrão:
region-dataproc.googleapis.com
Exemplo de Python (google-cloud-python):
from google.cloud import dataproc_v1
from google.cloud.dataproc_v1.gapic.transports import cluster_controller_grpc_transport
transport = cluster_controller_grpc_transport.ClusterControllerGrpcTransport(
address='us-central1-dataproc.googleapis.com:443')
client = dataproc_v1.ClusterControllerClient(transport)
project_id = 'my-project'
region = 'us-central1'
cluster = {...}
Exemplo de Java (google-cloud-java):
ClusterControllerSettings settings =
ClusterControllerSettings.newBuilder()
.setEndpoint("us-central1-dataproc.googleapis.com:443")
.build();
try (ClusterControllerClient clusterControllerClient = ClusterControllerClient.create(settings)) {
String projectId = "my-project";
String region = "us-central1";
Cluster cluster = Cluster.newBuilder().build();
Cluster response =
clusterControllerClient.createClusterAsync(projectId, region, cluster).get();
}
Console
Especifique uma região do Dataproc na seção "Local" do painel de configuração de cluster da página Criar um cluster do Dataproc no Console do Cloud.
A seguir
- Geografia e regiões
- Compute Engine Engine→Regiões e zonas
- Compute Engine→Recursos globais, regionais e por zonas
- Colocação em zona automática do Dataproc