Extremos regionales

Un extremo regional de Dataflow almacena y administra los metadatos de los trabajos de Dataflow. Asimismo, se encarga de la implementación y el control de los trabajadores de Dataflow.

Los nombres de extremos regionales siguen una convención estándar basada en los nombres de región de Compute Engine. Por ejemplo, el nombre de la región central de EE.UU. es us-central1. Por el momento, Dataflow proporciona extremos regionales para las siguientes regiones:

  • us-central1
  • us-east1
  • us-west1
  • europe-west1
  • europe-west4
  • asia-east1
  • asia-northeast1

¿Por qué especificar un extremo regional?

Hay situaciones en las que puede resultar útil especificar un extremo regional para los trabajos de Dataflow.

Seguridad y cumplimiento

Te recomendamos que limites el procesamiento del trabajo de Dataflow a una región geográfica específica para satisfacer las necesidades de seguridad y cumplimiento de tu proyecto.

Localidad de datos

Para minimizar la latencia de la red y los costos de transporte de la red, puedes ejecutar un trabajo de Dataflow desde la misma región que sus fuentes, receptores y ubicaciones de archivos temporales o de etapa de pruebas. Es importante destacar que si usas fuentes, receptores o ubicaciones de archivos temporales o de etapa de pruebas que se encuentran fuera de la región del trabajo, es posible que los datos se envíen a través de las regiones.

Notas sobre las fuentes de trabajo comunes de Dataflow:

  • Los depósitos de Cloud Storage pueden ser regionales o multirregionales: cuando usas un depósito regional de Cloud Storage, Google recomienda que realices operaciones de lectura en la misma región. Cuando usas un depósito multirregional de Cloud Storage como fuente, te recomendamos que realices operaciones de lectura en la misma región.
  • Los temas de Pub/Sub son recursos globales y no tienen consideraciones regionales.

Resiliencia y separación geográfica

Es posible que desees aislar las operaciones habituales de Dataflow de las interrupciones que podrían ocurrir en otras regiones geográficas. O que debas planificar sitios alternativos para asegurar la continuidad del negocio en caso de que ocurra un desastre en toda la región.

Ubicación de zona automática

De forma predeterminada, un extremo regional selecciona la mejor zona dentro de la región de manera automática en función de la capacidad de la zona disponible en el momento de la solicitud de creación del trabajo. La selección automática de zonas ayuda a garantizar que los trabajadores se ejecuten en la mejor zona para tu trabajo.

Usa extremos regionales

Nota: La configuración de extremo regional requiere la versión 2.0.0 del SDK de Apache Beam o una superior. Si usas la versión 1.x del SDK de Dataflow, ten en cuenta que usa el extremo regional us-central1.

Puedes especificar un extremo regional para el trabajo si configuras la opción --region en uno de los extremos regionales admitidos. Si no especificas un extremo regional, Dataflow usa us-central1 como región predeterminada y los trabajadores comenzarán en las zonas ubicadas dentro de us-central1. Si el extremo regional difiere de la región predeterminada, debes especificar la región en cada comando de Cloud Dataflow de este trabajo para evitar errores.

La interfaz de línea de comandos de Cloud Dataflow también admite la opción --region para especificar extremos regionales.

Anula la zona

De forma predeterminada, cuando envías un trabajo con el parámetro --region, el extremo regional asigna automáticamente a los trabajadores a la mejor zona dentro de la región. Sin embargo, es posible que desees especificar a una región y una zona (mediante --zone) en los siguientes casos.

  • Los trabajadores están en una zona que no tiene un extremo regional y deseas utilizar un extremo regional que esté más cerca de esa zona.

  • Deseas asegurarte de que el procesamiento de datos del trabajo de Dataflow se realice estrictamente en una zona específica.

Para todos los demás casos, no recomendamos anular la zona. La tabla de situaciones más comunes contiene recomendaciones de uso para estas situaciones.

Puedes ejecutar el comando gcloud compute regions list para ver una lista de regiones que tienen zonas disponibles para la implementación de trabajadores.

Situaciones comunes

La siguiente tabla contiene recomendaciones de uso para situaciones comunes.

Situación Recomendación
Quiero usar un extremo regional admitido y no tengo preferencia de zona dentro de la región. En este caso, el extremo regional selecciona de forma automática la mejor zona según la capacidad disponible. Usa --region para especificar un extremo regional. Esto garantiza que Dataflow administre tu trabajo y procese los datos dentro de la región especificada.
Necesito que el procesamiento de trabajadores se realice en una zona específica de una región que tenga un extremo regional. Especifica tanto --region como --zone.

Usa --region para especificar el extremo regional. Usa --zone para especificar la zona específica dentro de esa región.

Necesito que el procesamiento de trabajadores se realice en una región específica que no tenga un extremo regional. Especifica tanto --region como --zone.

Usa --region para especificar el extremo regional admitido que está más cerca de la zona en la que quieres que ocurra el procesamiento de trabajadores. Usa --zone para especificar una zona dentro de la región en la que quieres que ocurra el procesamiento de trabajadores.

Necesito usar Dataflow Shuffle. Usa --region para especificar un extremo regional que admita Dataflow Shuffle. Es posible que algunos extremos regionales no admitan esta función. Consulta la documentación de características para ver una lista de las regiones admitidas.