Utiliser des conteneurs personnalisés dans Dataflow

Vous pouvez personnaliser l'environnement d'exécution du code utilisateur dans les pipelines Dataflow en fournissant une image de conteneur personnalisé. Les conteneurs personnalisés sont compatibles avec les pipelines utilisant Dataflow Runner v2.

Lorsque Dataflow lance des VM de nœud de calcul, il utilise des images de conteneurs Docker pour lancer des processus de SDK en conteneurs sur les nœuds de calcul. Par défaut, un pipeline utilise une image Apache Beam prédéfinie. Cependant, vous pouvez fournir une image de conteneur personnalisé pour votre job Dataflow. Lorsque vous spécifiez une image de conteneur personnalisée, Dataflow lance des nœuds de calcul qui extraient l'image spécifiée.

Vous pouvez utiliser un conteneur personnalisé pour les raisons suivantes :

Préinstallation des dépendances de pipeline pour réduire le temps de démarrage des nœuds de calcul
Préinstallation des dépendances de pipeline qui ne sont pas disponibles dans les dépôts publics.
Préinstaller les dépendances de pipeline lorsque l'accès aux dépôts publics est désactivé. L'accès peut être désactivé pour des raisons de sécurité.
Prétraitement des fichiers volumineux pour réduire le temps de démarrage des nœuds de calcul.
Lancement d'un logiciel tiers en arrière-plan.
Personnalisation de l'environnement d'exécution.

Pour en savoir plus sur les conteneurs personnalisés dans Apache Beam, consultez le guide des conteneurs personnalisés Apache Beam. Pour obtenir des exemples de pipelines Python utilisant des conteneurs personnalisés, consultez la page Conteneurs personnalisés Dataflow.

Utiliser des conteneurs personnalisés dans Dataflow

Étapes suivantes