Extremos regionales

Dataproc admite un extremo "global" único y extremos regionales basados en zonas de Compute Engine.

Extremo global: El extremo "global" es un espacio de nombres multirregión especial que puede interactuar con los recursos de Dataproc en cualquier zona de Compute Engine especificada por el usuario.

Extremos regionales: Cada región de Dataproc constituye un espacio de nombres de recursos independiente limitado a implementar instancias en zonas de Compute Engine dentro de la región. Específicamente, puedes especificar regiones distintas, como "us-east1" o "europe-west1", para aislar los recursos (incluidas las instancias de VM y Cloud Storage) y las ubicaciones de almacenamiento de metadatos que usa Dataproc dentro de la región. Esto es posible porque la infraestructura subyacente para Dataproc, incluido su plano de control, se implementa en cada región. El espacio de nombres regional corresponde al segmento /regions/<region> de los URI de recursos de Dataproc a los que se hace referencia.

Beneficios de los extremos regionales:

  • Si usas Dataproc en varias regiones, especificar un extremo regional puede proporcionar un mejor aislamiento y protección regional.
  • Puedes notar un mejor rendimiento si seleccionas extremos regionales, en particular según la geografía, en comparación con el espacio de nombres multirregional “global”.
  • Si especificas un extremo regional cuando creas un clúster, no necesitas especificar una zona dentro de la región. Ubicación de zona automática de Dataproc elegirá la zona por usted.

Semántica de los extremos regionales

Los nombres de los extremos regionales siguen una convención de nombres estándar que se basa en las regiones de Compute Engine. Por ejemplo, el nombre de la región central de EE.UU. es us-central1 y el nombre de la región de Europa occidental es europe-west1. Ejecuta el comando gcloud compute regions list para ver una lista de las regiones disponibles.

Usa extremos regionales

gcloud

Especifica una región o el extremo multirregión con la herramienta de línea de comandos de gcloud con la marca --region.

    gcloud dataproc clusters create cluster-name --region region ...
    

API de REST

Use el parámetro de URL region en una solicitud de clusters.create para especificar la región o el extremo multirregional "global" de su clúster. El parámetro zoneUri debe especificarse en el cuerpo de la solicitud para un extremo global. Puede especificar la zona para un extremo regional o dejarla en blanco para permitir que Dataproc Ubicación de zona automática de Dataproc seleccione la zona para su clúster.

gRPC

El extremo de gRPC predeterminado accede al espacio de nombres multirregión global. Para usar un extremo regional, configure el extremo con la dirección en el transporte del cliente mediante el siguiente patrón:

region-dataproc.googleapis.com

Ejemplo de Python (google-cloud-python):

    from google.cloud import dataproc_v1
    from google.cloud.dataproc_v1.gapic.transports import cluster_controller_grpc_transport

    transport = cluster_controller_grpc_transport.ClusterControllerGrpcTransport(
        address='us-central1-dataproc.googleapis.com:443')
    client = dataproc_v1.ClusterControllerClient(transport)

    project_id = 'my-project'
    region = 'us-central1'
    cluster = {...}
    

Ejemplo de Java (google-cloud-java):

    ClusterControllerSettings settings =
         ClusterControllerSettings.newBuilder()
            .setEndpoint("us-central1-dataproc.googleapis.com:443")
            .build();
     try (ClusterControllerClient clusterControllerClient = ClusterControllerClient.create(settings)) {
       String projectId = "my-project";
       String region = "us-central1";
       Cluster cluster = Cluster.newBuilder().build();
       Cluster response =
           clusterControllerClient.createClusterAsync(projectId, region, cluster).get();
     }
    

Console

Cuando usa Google Cloud Console, especifica una región de Dataproc desde la página Crear un clúster.

Qué sigue