Construire des pipelines Dataflow.

Cette page décrit les différentes façons de créer des pipelines pour Dataflow, ainsi que les avantages de chaque méthode.

Modèles fournis par Google

Google fournit des modèles Open Source pour des dizaines de pipelines Dataflow prédéfinis. Vous pouvez exécuter ces modèles depuis la consoleGoogle Cloud ou depuis la ligne de commande. Certains modèles permettent d'ajouter une fonction définie par l'utilisateur (UDF) pour transformer les données avant de les écrire dans la destination de sortie.

Pensez à utiliser un modèle s'il correspond à votre scénario. Pour obtenir la liste complète, consultez Modèles fournis par Google.

Générateur de jobs

Le générateur de jobs est une interface utilisateur visuelle permettant de créer et d'exécuter des pipelines Dataflow dans la console Google Cloud , sans avoir à écrire de code. Dans le générateur de jobs, vous créez un pipeline en sélectionnant des sources, des récepteurs et des transformations, puis en les connectant pour former un graphique. Le générateur de jobs vous permet également d'enregistrer et de charger vos pipelines en tant que fichiers YAML.

Envisageons d'utiliser le générateur de tâches pour les scénarios suivants :

  • Créez des pipelines personnalisés lorsqu'un modèle fourni par Google ne correspond pas à votre scénario.
  • Créez des pipelines sans coder.
  • créer des pipelines avec plusieurs sources ou récepteurs ;
  • Créez des prototypes rapides.

Pour en savoir plus, consultez Présentation de l'UI du créateur de jobs.

Le générateur de tâches est compatible avec un sous-ensemble des sources et des récepteurs disponibles dans Apache Beam. Si vous avez besoin d'une source qui n'est pas compatible avec le générateur de jobs, essayez un modèle fourni par Google ou utilisez le SDK Apache Beam.

SDK Apache Beam

Les pipelines Dataflow sont basés sur le SDK Apache Beam Open Source. En utilisant le SDK pour écrire votre pipeline, vous bénéficiez de toute la puissance d'Apache Beam pour vos charges de travail. Les pipelines peuvent être écrits en Java, Python ou Go.

Envisagez d'utiliser le SDK Apache Beam si vous ne parvenez pas à réaliser votre scénario avec un modèle fourni par Google ou à l'aide du générateur de tâches. Exemple :

  • Pipelines plus complexes nécessitant l'ensemble des fonctionnalités d'Apache Beam.
  • Pipelines de streaming nécessitant des stratégies plus sophistiquées pour gérer les données tardives, comme le retraitement.

Pour en savoir plus, consultez Utiliser Apache Beam pour créer des pipelines.

Notebooks

Vous pouvez exécuter du code Python Apache Beam dans un notebook JupyterLab. Ces notebooks sont disponibles via Vertex AI Workbench, un service qui héberge des VM de notebooks préinstallées avec les derniers frameworks de data science et de machine learning. Avec les notebooks, vous n'avez pas besoin de configurer un environnement de développement et vous pouvez itérer rapidement sur le code de votre pipeline. Les notebooks s'exécutent dans un environnement de test, mais vous pouvez exporter le code pour l'utiliser en production.

Pour en savoir plus, consultez Développer des notebooks Apache Beam.