Participez à l'atelier Google Cloud Real Time Intelligence pour acquérir une expérience pratique du streaming, de l'IA et du traitement par lot rapide. Inscrivez-vous ici.
Accéder à

Dataflow

Un traitement des données par flux et par lot sans serveur, à la fois rapide, unifié et économique.

Les nouveaux clients bénéficient de 300 $ de crédits gratuits à dépenser sur Dataflow.

  • Un service de traitement des données entièrement géré

  • Gestion et provisionnement automatisés des ressources de traitement

  • Autoscaling horizontal des ressources de nœuds de calcul pour une utilisation optimale des ressources

  • Innovation impulsée par la communauté dans la création de logiciels Open Source avec le SDK Apache Beam

  • Traitement "exactement une fois" fiable et cohérent

Avantages

Analyse rapide des flux de données

Dataflow accélère et simplifie le développement de pipelines de flux de données tout en réduisant la latence des données.

Simplification des opérations et de la gestion

L'approche sans serveur de Dataflow supprime les coûts d'exploitation liés aux charges de travail des ingénieurs en données. Les équipes peuvent ainsi se concentrer sur la programmation plutôt que sur la gestion des clusters de serveurs.

Réduction du coût total de possession

En associant l'autoscaling des ressources à un traitement par lot économique, Dataflow offre des capacités presque illimitées pour gérer les charges de travail des périodes saisonnières et des pics d'activité, sans dépasser le budget.

Principales fonctionnalités

Principales fonctionnalités

Autoscaling des ressources et rééquilibrage dynamique des tâches

Réduction de la latence du pipeline, optimisation de l'utilisation des ressources et réduction du coût de traitement par enregistrement de données avec autoscaling des ressources basé sur les données. Les entrées de données sont partitionnées automatiquement et constamment rééquilibrées pour lisser l'utilisation des ressources de nœuds de calcul et réduire les effets des décalages de données sur les performances du pipeline.

Planification et tarification flexibles pour le traitement par lot

La planification flexible des ressources (FlexRS) réduit le coût des traitements par lot grâce à une certaine souplesse dans le traitement des tâches (celles exécutées la nuit, par exemple) pendant la période planifiée. Ces tâches flexibles sont placées dans une file d'attente avec la garantie qu'elles seront récupérées pour être exécutées dans un délai de six heures.

Modèles d'IA en temps réel prêts à l'emploi

Grâce à des modèles prêts à l'emploi, les fonctionnalités d'IA en temps réel de Dataflow permettent des réactions en temps réel avec une intelligence quasi humaine à de grandes quantités d'événements. Les clients peuvent développer des solutions intelligentes allant de l'analyse prédictive et de la détection d'anomalies à la personnalisation en temps réel et d'autres cas d'utilisation d'analyse avancée.

Découvrir toutes les fonctionnalités

Documentation

Documentation

Tutoriel
Serverless Data Processing with Dataflow: Foundations

Formation de base sur tout ce que vous devez savoir sur Dataflow.

Tutoriel
Guide de démarrage rapide Dataflow – Utiliser Python

Configurez votre projet Google Cloud et votre environnement de développement Python, obtenez le SDK Python d'Apache Beam, puis exécutez et modifiez l'exemple WordCount sur le service Dataflow.

Tutoriel
Utiliser Dataflow SQL

Créez une requête SQL et déployez une tâche Dataflow afin d'exécuter cette requête depuis l'interface utilisateur de Dataflow SQL.

Tutoriel
Installer le SDK Apache Beam

Installez le SDK Apache Beam pour exécuter vos pipelines sur le service Dataflow.

Tutoriel
Machine learning avec Apache Beam et TensorFlow

Prétraitez des données et entraînez un modèle de machine learning à prédire l'énergie moléculaire à l'aide d'Apache Beam, de Dataflow et de TensorFlow.

Tutoriel
Tutoriel de Dataflow WordCount avec Java

Dans ce tutoriel, vous allez découvrir les bases du service Cloud Dataflow en exécutant un exemple de pipeline simple basé sur le SDK Java d'Apache Beam.

Tutoriel
Ateliers pratiques : Traiter des données avec Google Cloud Dataflow

Apprenez à traiter un ensemble de données textuelles en temps réel à l'aide de Python et de Dataflow, puis stockez-le dans BigQuery.

Tutoriel
Ateliers pratiques : Traitement par flux avec Pub/Sub et Dataflow

Découvrez comment utiliser Dataflow pour lire des messages publiés dans un sujet Pub/Sub, filtrer des messages par horodatage, et écrire les messages dans Cloud Storage.

Principes de base de Google Cloud
Ressources Dataflow

Découvrez des informations sur les tarifs, les quotas de ressources, les questions fréquentes et plus encore.

Cas d'utilisation

Cas d'utilisation

Cas d'utilisation
Analyse de flux

L'analyse de flux de Google permet de mieux organiser les données, et de les rendre utiles et accessibles dès qu'elles sont générées. Basée sur les infrastructures de Pub/Sub, de Dataflow et de BigQuery, notre solution de streaming assure le provisionnement des ressources dont vous avez besoin pour ingérer, traiter et analyser les volumes variables de données en temps réel, et obtenir des insights métier en temps réel. Ce provisionnement distinct réduit la complexité et rend les analyses de flux accessibles aux analystes et aux ingénieurs de données.

Flux sur 5 colonnes : "Trigger" (Déclencher), "Ingest" (Ingérer), "Enrich" (Enrichir), "Analyze" (Analyser) et "Activate" (Activer). Chaque colonne est associée à une section supérieure et inférieure. En haut de la colonne "Trigger" on trouve les appareils de périphérie ("mobile", "Web", "Data Store" et "IoT") dont le flux va vers "Pub/Sub" dans la colonne "Ingest" et vers la colonne "Enrich" et "Apache Beam"/"Dataflow", vers les cadres "Analyze", puis "Activate" où le flux revient aux appareils de périphérie dans la colonne 1. Depuis "Apache Beam" dans la colonne 3, le flux passe d'une colonne à l'autre dans "Analyze", "BigQuery", "AI Platform" et "Bigtable" : les trois flux proviennent de "Backfill" (Remplissage)/"Reprocess" (Retraitement) - "Dataflow Batch" (Lot Dataflow). Le flux passe de "BigQuery" à la colonne "Activate", à "Data Studio", à "Third-party BI" (Informatique décisionnelle tierce) et à "Cloud Functions", qui renvoie vers les appareils de périphérie de la colonne 1. La section inférieure des colonnes, "Creation Flow" (Flux de création) indique pour la colonne "Trigger" : "Configure source to push event message to Pub/Sub topic" ("Configurer la source pour transmettre un message d'événement push à un sujet Pub/Sub") ; pour la colonne "Enrich" "Deploy streaming or batch Dataflow job using templates, CLI, or notebooks" (Déployer des tâches Dataflow par flux ou par lot à l'aide de modèles, de CLI ou de notebooks” ; pour la colonne "Analyze" : "Create dataset, tables, and models to receive stream" (Créer un ensemble de données, des tables et des modèles pour recevoir des flux)" ; pour la colonne "Activate" : "Build real-time dashboards and call external APIs" (Créer des tableaux de bord en temps réel et appeler des API externes).
Cas d'utilisation
IA en temps réel

Dataflow fournit des événements de traitement par flux aux solutions Vertex AI et TensorFlow Extended (TFX) de Google Cloud pour permettre des analyses prédictives, la détection des fraudes, la personnalisation en temps réel et d'autres cas d'analyses avancées. De son côté, TFX utilise Dataflow et Apache Beam comme moteur de traitement de données distribué afin de gérer différents aspects du cycle de vie du ML, le tout étant compatible avec les CI/CD pour le ML via les pipelines Kubeflow.

Cas d'utilisation
Traitement des données de capteurs et de journaux

Tirez pleinement parti des insights métier obtenus par votre réseau mondial d'appareils avec une plate-forme IoT intelligente.

Toutes les fonctionnalités

Toutes les fonctionnalités

Nouveauté de Dataflow Prime : l'autoscaling vertical Ajuste de manière dynamique la capacité de calcul allouée à chaque nœud de calcul en fonction de l'utilisation. L'autoscaling vertical fonctionne de pair avec l'autoscaling horizontal pour faire évoluer facilement les nœuds de calcul afin de répondre au mieux aux besoins du pipeline.
Nouveauté de Dataflow Prime : l'ajustement adapté La fonctionnalité d'ajustement adapté crée des pools de ressources spécifiques et optimisés pour chaque étape afin de réduire le gaspillage de ressources.
Nouveauté de Dataflow Prime : les diagnostics intelligents Suite de fonctionnalités comprenant 1) la gestion des pipelines de données basée sur le SLO ; 2) des fonctionnalités de visualisation des tâches qui fournissent aux utilisateurs un moyen visuel d'inspecter les graphiques des tâches et d'identifier les goulots d'étranglement ; 3) des recommandations automatiques pour identifier et régler les problèmes de performances et de disponibilité. 
Streaming Engine Streaming Engine sépare le calcul du stockage d'état et transfère une partie de l'exécution des pipelines des VM de nœud de calcul vers le backend du service Dataflow. Cette approche améliore considérablement l'autoscaling et la latence des données.
Autoscaling horizontal L'autoscaling horizontal permet au service Dataflow de sélectionner automatiquement le nombre approprié d'instances de nœuds de calcul pour l'exécution de votre tâche. Selon les caractéristiques de la tâche, le service Dataflow peut également réaffecter de façon dynamique plus ou moins de nœuds de calcul pendant l'exécution.
Dataflow Shuffle La fonctionnalité Dataflow Shuffle basée sur les services transfère l'opération de brassage, utilisée pour regrouper ou associer des données, depuis les VM de nœud de calcul vers le backend du service Dataflow pour les pipelines par lot. Ces pipelines passent facilement à des capacités de centaines de téraoctets sans nécessiter un quelconque réglage.
Dataflow SQL Dataflow SQL vous permet d'utiliser vos compétences SQL pour développer des pipelines Dataflow de flux de données depuis l'interface Web de BigQuery. Vous pouvez associer des flux de données de Pub/Sub avec des fichiers dans Cloud Storage ou des tables dans BigQuery, écrire les résultats dans BigQuery, et créer des tableaux de bord en temps réel à l'aide de Google Sheets ou d'autres outils d'informatique décisionnelle.
Planification flexible des ressources (FlexRS) La fonctionnalité FlexRS de Dataflow réduit le coût des traitements par lot en s'appuyant sur des techniques de planification avancées, le service Dataflow Shuffle, et une combinaison d'instances de VM préemptives et de VM standards. 
Modèles Dataflow Les modèles Dataflow vous permettent de partager vos pipelines en toute simplicité avec des membres de votre équipe et toute votre entreprise. De nombreux modèles fournis par Google vous donnent également la possibilité d'exécuter des tâches simples, mais utiles, de traitement de données. Cela inclut les modèles de capture de données modifiées pour les cas d'utilisation de l'analyse de flux. Avec Flex Templates, vous pouvez créer un modèle à partir de n'importe quel pipeline Dataflow.
Intégration de notebooks Développez entièrement des pipelines de manière itérative avec Vertex AI Notebooks et déployez-les avec l'exécuteur Dataflow. Créez des pipelines Apache Beam étape par étape en inspectant les graphiques du pipeline dans un workflow REPL (read-eval-print-loop). Disponible sur Google Vertex AI, Notebooks vous permet d'écrire des pipelines dans un environnement intuitif avec les frameworks les plus récents de science des données et de machine learning.
Capture de données modifiées en temps réel Synchronisez ou répliquez les données de manière fiable et avec une latence minimale sur des sources de données hétérogènes afin d'optimiser l'analyse de flux. Les modèles Dataflow extensibles s'intègrent à Datastream pour répliquer les données de Cloud Storage vers BigQuery, PostgreSQL ou Cloud Spanner. Le connecteur Debezium d'Apache Beam est une solution Open Source permettant d'ingérer les modifications de données de MySQL, PostgreSQL, SQL Server et Db2.
Surveillance intégrée Grâce à la surveillance intégrée de Dataflow, vous pouvez accéder directement aux métriques de tâche afin de dépanner plus facilement les pipelines de traitement par lot et par flux. Accédez aux graphiques de surveillance aussi bien au niveau des nœuds de calcul que des étapes, et configurez des alertes pour des conditions comme les données non actualisées et les latences système élevées.
Clés de chiffrement gérées par le client Vous pouvez créer un pipeline par lot ou par flux protégé par une clé de chiffrement gérée par le client (CMEK) ou accéder aux données protégées par la CMEK dans les sources et les récepteurs.
Dataflow VPC Service Controls L'intégration de Dataflow au service VPC Service Controls renforce votre capacité à limiter le risque d'exfiltration de données. Votre environnement de traitement des données bénéficie ainsi d'un niveau de sécurité supplémentaire.
Adresses IP privées La désactivation des adresses IP publiques vous permet de mieux sécuriser votre infrastructure de traitement de données. En n'utilisant aucune adresse IP publique pour vos nœuds de calcul Dataflow, vous réduisez par la même occasion le nombre d'adresses IP publiques utilisées par rapport au quota attribué à votre projet Google Cloud.

Tarifs

Tarifs

Les tâches Dataflow sont facturées à la seconde, en fonction de l'utilisation réelle des nœuds de calcul par flux ou par lot Dataflow. Les ressources supplémentaires, comme Cloud Storage ou Pub/Sub, sont chacune facturées selon la grille tarifaire de ces services.

Partenaires

Découvrez les solutions partenaires

Les partenaires Google Cloud ont mis au point des intégrations à Dataflow pour vous permettre d'exécuter rapidement et facilement de puissantes tâches de traitement de données complexes de n'importe quelle taille.