Dataflow est basé sur le projet Open Source Apache Beam. Vous pouvez utiliser le SDK Apache Beam pour créer des pipelines pour Dataflow. Ce document répertorie certaines ressources pour vous familiariser avec la programmation Apache Beam.
Installer le SDK Apache Beam : explique comment installer le SDK Apache Beam pour exécuter vos pipelines sur le service Dataflow.
Guide de programmation Apache Beam : fournit des conseils sur l'utilisation des classes du SDK Apache Beam pour créer et tester votre pipeline.
Présentation d'Apache Beam : guide d'apprentissage que vous pouvez utiliser pour vous familiariser avec Apache Beam. Les unités de formation sont accompagnées d'exemples de code que vous pouvez exécuter et modifier.
Apache Beam Playground : environnement interactif permettant de tester des transformations et des exemples Apache Beam sans avoir à installer Apache Beam dans votre environnement.
Sur le site Web d'Apache Beam, vous pouvez également trouver des informations sur la conception, la création et le test de votre pipeline :
Concevoir votre pipeline : cette documentation vous montre comment déterminer la structure de votre pipeline, comment choisir les transformations à appliquer à vos données et comment déterminer vos méthodes d'entrée et de sortie.
Créer votre pipeline : cette documentation explique comment utiliser les classes des SDK Apache Beam et les étapes nécessaires pour créer un pipeline.
Tester votre pipeline : présente les bonnes pratiques à adopter pour tester vos pipelines.
Vous pouvez utiliser les exemples suivants du dépôt GitHub Apache Beam pour commencer à créer un pipeline de streaming :
- Extraction de mots en streaming (Java)
- Nombre de mots en flux (Python)
streaming_wordcap
(Go).