Points de terminaison régionaux

Les points de terminaison régionaux Dataflow assurent le stockage et la gestion des métadonnées associées à vos tâches Dataflow, ainsi que le déploiement et le contrôle de vos nœuds de calcul Dataflow.

Les noms des points de terminaison régionaux suivent une convention d'appellation standard basée sur les noms de régions de Compute Engine. Par exemple, le nom de la région centrale des États-Unis est us-central1.

Cette fonctionnalité est disponible dans toutes les régions où Dataflow est disponible. Pour afficher les emplacements disponibles, consultez la page Emplacements Dataflow.

Consignes pour le choix d'un point de terminaison régional

La spécification d'un point de terminaison régional dans une tâche Dataflow est obligatoire.

Sécurité et conformité

Pour répondre aux exigences de sécurité et de conformité de votre projet, vous pouvez être amené à limiter le traitement des tâches Dataflow à une région géographique spécifique.

Localisation des données

Afin de réduire les coûts de latence et de transport réseau, une tâche Dataflow peut être exécutée à partir de la même région que ses sources, récepteurs, emplacements de fichiers de préproduction et emplacements de fichiers temporaires. Si vous utilisez des sources, des récepteurs, des emplacements de fichiers de préproduction ou des emplacements de fichiers temporaires situés en dehors de la région associée à votre tâche, vos données peuvent être envoyées d'une région à l'autre.

Lors de l'exécution d'un pipeline, les données utilisateur ne sont gérées que par le pool de nœuds de calcul Dataflow, et le déplacement des données est limité aux chemins réseau qui connectent les nœuds de calcul Dataflow du pool.

Remarques à propos des sources de tâches Dataflow courantes :

  • Les buckets Cloud Storage peuvent être des ressources régionales ou multirégionales : si vous utilisez un bucket Cloud Storage régional ou multirégional en tant que source, nous vous recommandons d'effectuer les opérations de lecture dans la même région.
  • Les sujets Pub/Sub, lorsqu'ils sont publiés sur le point de terminaison global Pub/Sub, sont stockés dans la région Google Cloud la plus proche. Toutefois, vous pouvez modifier la règle de stockage du sujet pour choisir une région ou un ensemble de régions spécifique. De même, les sujets Pub/Sub Lite ne sont compatibles qu'avec le stockage zonal.

Résilience et séparation géographique

Vous pouvez souhaiter isoler vos opérations Dataflow normales des pannes susceptibles de survenir dans d'autres régions géographiques. Vous pouvez aussi prévoir des sites secondaires pour assurer la continuité des opérations en cas de sinistre à l'échelle de la région.

Sélection de zone automatique

Par défaut, un point de terminaison régional sélectionne automatiquement la meilleure zone de la région en fonction de la capacité disponible au moment de la demande de création de tâche. La sélection automatique de la zone permet de s'assurer que les nœuds de calcul de la tâche s'exécutent dans la zone la plus adaptée à celle-ci.

Spécifier un point de terminaison régional

Pour spécifier un point de terminaison régional pour votre tâche, définissez l'option --region sur l'un des points de terminaison régionaux disponibles. L'option --region remplace la région par défaut définie dans le serveur de métadonnées, votre client local ou les variables d'environnement.

L'interface de ligne de commande Dataflow propose aussi l'option --region pour spécifier des points de terminaison régionaux.

Remplacer la région ou la zone des nœuds de calcul

Par défaut, lorsque vous envoyez une tâche avec l'option --region, le point de terminaison régional attribue automatiquement des nœuds de calcul à la zone optimale dans la région. Cependant, vous pouvez spécifier une région ou une zone particulière (en utilisant respectivement --worker_region ou --worker_zone) pour vos instances de nœud de calcul.

Vous pouvez envisager de remplacer l'emplacement des nœuds de calcul dans les cas suivants :

  • Vos nœuds de calcul se trouvent dans une région ou une zone qui ne possède pas de point de terminaison régional, et vous souhaitez utiliser un point de terminaison régional plus proche de cette région ou zone.

  • Vous souhaitez vous assurer que le traitement des données de votre tâche Dataflow s'effectue exclusivement dans une région ou une zone spécifique.

Dans tous les autres cas, nous vous déconseillons de remplacer l'emplacement des nœuds de calcul. Le tableau des scénarios courants contient des recommandations d'utilisation pour ces situations.

La commande gcloud compute regions list permet d'afficher une liste des régions et des zones disponibles pour le déploiement des nœuds de calcul.

Scénarios courants

Ce tableau présente des recommandations d'utilisation pour les scénarios courants.

Scénario Recommandation
Je souhaite utiliser un point de terminaison régional compatible, et je n'ai pas de préférence de zone dans la région. Dans ce cas, le point de terminaison régional sélectionne automatiquement la meilleure zone en fonction de la capacité disponible. Utilisez le paramètre --region pour spécifier un point de terminaison régional. La gestion de votre tâche et le traitement des données sont alors assurés par Dataflow dans la région spécifiée.
J'ai besoin que le traitement des nœuds de calcul intervienne dans une zone spécifique d'une région qui dispose d'un point de terminaison régional. Indiquez à la fois --region et --worker_zone.

Utilisez le paramètre --region pour spécifier le point de terminaison régional. Utilisez le paramètre --worker_zone pour spécifier une zone particulière dans cette région.

J'ai besoin que le traitement des nœuds de calcul intervienne dans une région spécifique qui n'a pas de point de terminaison régional. Indiquez à la fois --region et --worker_region.

Utilisez le paramètre --region pour spécifier le point de terminaison régional disponible le plus proche de la région dans laquelle le traitement des nœuds de calcul doit s'effectuer. Définissez le paramètre --worker_region pour spécifier une région dans laquelle le traitement des nœuds de calcul doit avoir lieu.

J'ai besoin d'utiliser Dataflow Shuffle. Utilisez le paramètre --region pour spécifier un point de terminaison régional compatible avec Dataflow Shuffle. Les points de terminaison régionaux n'étant pas tous compatibles avec cette fonctionnalité, reportez-vous à la documentation relative aux fonctionnalités pour obtenir une liste des régions disponibles.