Extremos regionales

Un extremo regional de Dataflow almacena y administra los metadatos de los trabajos de Dataflow. Asimismo, se encarga de la implementación y el control de los trabajadores de Dataflow.

Los nombres de extremos regionales siguen una convención estándar basada en los nombres de región de Compute Engine. Por ejemplo, el nombre de la región central de EE.UU. es us-central1. Por el momento, Dataflow proporciona extremos regionales para las siguientes regiones:

  • us-west1
  • us-central1
  • us-east1
  • us-east4
  • europe-west2
  • europe-west1
  • europe-west4
  • europe-west3
  • asia-east1
  • asia-northeast1

¿Por qué especificar un extremo regional?

Hay situaciones en las que puede resultar útil especificar un extremo regional para los trabajos de Dataflow.

Seguridad y cumplimiento

Te recomendamos que restrinjas el procesamiento del trabajo de Dataflow a una región geográfica específica para satisfacer las necesidades de seguridad y cumplimiento de tu proyecto.

Localidad de datos

Para minimizar la latencia de la red y los costos de transporte de la red, puedes ejecutar un trabajo de Dataflow desde la misma región que sus fuentes, receptores y ubicaciones de archivos temporales o de etapa de pruebas. Es importante destacar que, si usas fuentes, receptores o ubicaciones de archivos temporales o de etapa de pruebas ubicados fuera de la región del trabajo, es posible que los datos se envíen a través de las regiones.

Notas sobre las fuentes de trabajo comunes de Dataflow:

  • Los depósitos de Cloud Storage pueden ser recursos regionales o multirregionales: cuando usas un depósito regional o multirregional como fuente, te recomendamos que realices operaciones de lectura en la misma región.
  • Los temas de Pub/Sub son recursos globales y no tienen consideraciones regionales.

Resiliencia y separación geográfica

Es posible que desees aislar las operaciones habituales de Dataflow de las interrupciones que podrían ocurrir en otras regiones geográficas o que debas planificar sitios alternativos para asegurar la continuidad del negocio en caso de que ocurra un desastre en toda la región.

Ubicación de zona automática

De forma predeterminada, un extremo regional selecciona la mejor zona dentro de la región automáticamente en función de la capacidad de la zona disponible en el momento de la solicitud de creación de trabajo. La selección automática de zonas ayuda a garantizar que los trabajadores estén en la mejor zona para tu trabajo.

Usa extremos regionales

Nota: La configuración de extremo regional requiere el SDK de Apache Beam versión 2.0.0 o superior.

Para especificar un extremo regional para tu trabajo, configura la opción --region en uno de los extremos regionales admitidos. Si no especificas un extremo regional, Dataflow usa us-central1 como región predeterminada y los trabajadores comenzarán en las zonas ubicadas dentro de us-central1. Si el extremo regional difiere de la región predeterminada, debes especificar la región en cada comando de Cloud Dataflow de este trabajo para evitar errores.

La interfaz de línea de comandos de Cloud Dataflow también admite la opción --region para especificar extremos regionales.

Anula la región o la zona del trabajador

De forma predeterminada, cuando envías un trabajo con el parámetro --region, el extremo regional asigna automáticamente trabajadores a la mejor zona dentro de la región. Sin embargo, se recomienda especificar una región o una zona particular (mediante --worker_region o --worker_zone, respectivamente) para tus instancias de trabajador.

Recomendamos anular la ubicación del trabajador en los siguientes casos:

  • Tus trabajadores se encuentran en una región o zona que no tiene un extremo regional, y deseas usar un extremo regional más cercano a esa región o zona.

  • Deseas asegurarte de que el procesamiento de datos para tu trabajo de Dataflow se produzca de forma estricta en una región o una zona específica.

En todos los demás casos, no recomendamos anular la ubicación del trabajador. En la tabla de situaciones más comunes, se incluyen recomendaciones de uso para estas situaciones.

Puedes ejecutar el comando gcloud compute regions list a fin de ver una lista de regiones y zonas que están disponibles para la implementación de trabajadores.

Situaciones comunes

La siguiente tabla contiene recomendaciones de uso para situaciones comunes.

Situación Recomendación
Quiero usar un extremo regional admitido y no tengo preferencia de zona dentro de la región. En este caso, el extremo regional selecciona de forma automática la mejor zona según la capacidad disponible. Usa --region para especificar un extremo regional. Esto garantiza que Dataflow administre tu trabajo y procese los datos en la región especificada.
Necesito que el procesamiento de trabajadores se realice en una zona específica de una región que tenga un extremo regional. Especifica tanto --region como --worker_zone.

Usa --region para especificar el extremo regional. Usa --worker_zone para especificar la zona específica dentro de esa región.

Necesito que el procesamiento de trabajadores se realice en una región que no tenga un extremo regional. Especifica tanto --region como --worker_region.

Usa --region para especificar el extremo regional admitido que está más cerca de la región en la que debe ocurrir el procesamiento del trabajador. Usa --worker_region para especificar una región en la que debe ocurrir el procesamiento del trabajador.

Necesito usar Dataflow Shuffle. Usa --region para especificar un extremo regional que admita Dataflow Shuffle. Es posible que algunos extremos regionales no admitan esta característica. Consulta la documentación de características para ver una lista de las regiones admitidas.