Cas d'utilisation de Dataflow

Dataflow est conçu pour accepter les pipelines de traitement par lot et par flux à grande échelle. Dataflow est basé sur le framework Open Source Apache Beam.
Cette page contient des liens vers des tutoriels et des exemples de cas d'utilisation pour vous aider à démarrer.
Transfert de données
Traiter des données de Kafka vers BigQuery
Ce tutoriel explique comment exécuter un modèle Dataflow qui lit les données de Managed Service pour Apache Kafka et écrit les enregistrements dans une table BigQuery.
Traiter des données de Pub/Sub vers BigQuery
Ce tutoriel explique comment exécuter un modèle Dataflow qui lit les messages encodés en JSON à partir de Pub/Sub et les écrit dans une table BigQuery.
Dataflow ML
Utiliser RunInference et les embeddings
Ce notebook explique comment utiliser des modèles de ML dans des pipelines Apache Beam qui utilisent la transformation RunInference.
Utiliser des GPU dans votre pipeline
Ce notebook explique comment exécuter l'inférence de machine learning à l'aide de vLLM et de GPU. vLLM est une bibliothèque pour l'inférence et la diffusion de LLM.
Autres ressources
Modèles de référence
Liens vers des exemples de code et des guides de référence techniques pour les cas d'utilisation courants de Dataflow.
Pipeline de streaming d'e-commerce
Dans ce tutoriel, vous allez créer un pipeline qui transforme les données d'e-commerce provenant de Pub/Sub et génère les données de sortie dans BigQuery et Bigtable.
Charges de travail HPC hautement parallèles
Avec Dataflow, vous pouvez exécuter des charges de travail hautement parallèles dans un seul pipeline, ce qui améliore l'efficacité et facilite la gestion de votre workflow.