Extremos regionales

Un extremo regional de Cloud Dataflow almacena y maneja los metadatos sobre tu trabajo de Cloud Dataflow, y también implementa y controla a tus trabajadores de Cloud Dataflow.

Los nombres de extremos regionales siguen una convención estándar basada en los nombres de región de Compute Engine. Por ejemplo, el nombre de la región central de EE.UU. es us-central1. En este momento, Cloud Dataflow proporciona extremos regionales para las siguientes regiones:

  • us-central1
  • us-east1
  • us-west1
  • europe-west1
  • asia-east1
  • asia-northeast1

¿Por qué especificar un extremo regional?

Hay situaciones en las que puede resultar útil especificar un extremo regional para tu trabajo de Cloud Dataflow.

Seguridad y cumplimiento

Es posible que debas restringir el procesamiento del trabajo de Cloud Dataflow a una región geográfica específica para satisfacer las necesidades de seguridad y cumplimiento de tu proyecto.

Localidad de datos

Puedes minimizar la latencia de la red y los costos de transporte de la red ejecutando un trabajo de Cloud Dataflow desde la misma región que tus fuentes o receptores.

Notas sobre las fuentes de trabajo comunes de Cloud Dataflow:

  • Los depósitos de Cloud Storage pueden ser regionales o multirregionales: cuando usas un depósito regional de Cloud Storage, Google recomienda que realices operaciones de lectura en la misma región. Cuando usas un depósito multirregional de Cloud Storage como fuente, te recomendamos que realices operaciones de lectura en la misma región.
  • Los temas de Cloud Pub/Sub son recursos globales y no tienen consideraciones regionales.

Resiliencia y separación geográfica

Es posible que desees aislar tus operaciones normales de Cloud Dataflow de las interrupciones que podrían ocurrir en otras regiones geográficas. O es posible que debas planificar sitios alternativos para la continuidad comercial en caso de un desastre en toda la región.

Ubicación de zona automática

De forma predeterminada, un extremo regional selecciona la mejor zona dentro de la región de manera automática en función de la capacidad de la zona disponible en el momento de la solicitud de creación de trabajo. La selección automática de zonas ayuda a garantizar que los trabajadores estén en la mejor zona para su trabajo.

Usa extremos regionales

Nota: La configuración de extremo regional requiere el SDK de Apache Beam versión 2.0.0 o superior. Si estás usando el SDK de Cloud Dataflow 1.x, ten en cuenta que usa el extremo regional us-central1.

A fin de especificar un extremo regional para tu trabajo, establece la opción --region en uno de los extremos regionales admitidos. Si no especificas un extremo regional, Cloud Dataflow usa us-central1 como la región predeterminada y los trabajadores comenzarán en zonas dentro de us-central1. Si el extremo regional difiere de la región predeterminada, la región debe especificarse en cada comando de Cloud Dataflow para este trabajo a fin de evitar errores.

La interfaz de línea de comandos de Cloud Dataflow también admite la opción --region para especificar extremos regionales.

Anula la zona

De forma predeterminada, cuando envías un trabajo con el parámetro --region, el extremo regional asigna automática trabajadores a la mejor zona dentro de la región. Sin embargo, es posible que desees especificar a ambos una y una zona (mediante --zone) en los siguientes casos.

  • Tus trabajadores están en una zona que no tiene un extremo regional y deseas utilizar un extremo regional que esté más cerca de esa zona.

  • Deseas asegurarte de que el procesamiento de datos para tu trabajo de Cloud Dataflow se realice estrictamente en una zona específica.

Para todos los demás casos, no recomendamos anular la zona. La tabla de situaciones más comunes contiene recomendaciones de uso para estas situaciones.

Puedes ejecutar el comando gcloud compute regions list a fin de ver una lista de regiones que tienen zonas disponibles para la implementación del trabajador.

Situaciones comunes

La siguiente tabla contiene recomendaciones de uso para situaciones comunes.

Situación Recomendación
Quiero usar un extremo regional admitido y no tengo preferencia de zona dentro de la región. En este caso, el extremo regional selecciona de forma automática la mejor zona según la capacidad disponible. Usa --region para especificar un extremo regional. Esto garantiza que Cloud Dataflow administre tu trabajo y procese los datos dentro de la región especificada.
Necesito que el procesamiento de trabajadores se realice en una zona específica de una región que tenga un extremo regional. Especifica --region y --zone.

Usa --region para especificar el extremo regional. Usa --zone para especificar la zona específica dentro de esa región.

Necesito que el procesamiento de trabajadores se realice en una región que no tenga un extremo regional. Especifica --region y --zone.

Usa --region para especificar el extremo regional admitido que está más cercano a la zona donde debe ocurrir el procesamiento del trabajador. Usa --zone para especificar una zona dentro de la región deseada donde debe ocurrir el procesamiento del trabajador.

Necesito usar Cloud Dataflow Shuffle. Usa --region para especificar un extremo regional que admita Cloud Dataflow Shuffle. Es posible que algunos extremos regionales no admitan esta característica; consulta la documentación de características para obtener una lista de las regiones admitidas.
¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

¿Necesitas ayuda? Visita nuestra página de asistencia.