Google Cloud figure parmi les leaders dans le rapport Forrester Wave " Streaming Data Platforms" (Plates-formes de données de flux) de 2023. En savoir plus
Accéder à
Dataflow

Dataflow

Un traitement des données par flux et par lot sans serveur, à la fois rapide, unifié et économique.

Les nouveaux clients bénéficient de 300 $ de crédits gratuits à dépenser sur Dataflow.

  • Activation et insights en temps réel grâce aux flux de données et au machine learning

  • Un service de traitement des données entièrement géré

  • Gestion et provisionnement automatisés des ressources de traitement

  • Autoscaling horizontal et vertical des ressources de nœuds de calcul pour une utilisation optimale des ressources

  • Innovation impulsée par la communauté dans la création de logiciels Open Source avec le SDK Apache Beam

Avantages

Analyse rapide des flux de données

Dataflow accélère et simplifie le développement de pipelines de flux de données tout en réduisant la latence des données.

Simplification des opérations et de la gestion

L'approche sans serveur de Dataflow supprime les coûts d'exploitation liés aux charges de travail des ingénieurs en données. Les équipes peuvent ainsi se concentrer sur la programmation plutôt que sur la gestion des clusters de serveurs.

Réduction du coût total de possession

En associant l'autoscaling des ressources à un traitement par lot économique, Dataflow offre des capacités presque illimitées pour gérer les charges de travail des périodes saisonnières et des pics d'activité, sans dépasser le budget.

Principales fonctionnalités

Principales fonctionnalités

IA en temps réel prête à l'emploi

Basées sur des fonctionnalités de ML prêtes à l'emploi telles que le GPU NVIDIA et des modèles prêts à l'emploi, les fonctionnalités d'IA en temps réel de Dataflow permettent des réactions en temps réel avec une intelligence presque humaine à de grandes quantités d'événements.

Les clients peuvent développer des solutions intelligentes allant de l'analyse prédictive et de la détection d'anomalies à la personnalisation en temps réel et d'autres cas d'utilisation d'analyse avancée.

Entraînez, déployez et gérez des pipelines de machine learning (ML) complets, y compris des inférences en local et à distance avec des pipelines de traitement par lot et par flux.

Autoscaling des ressources et rééquilibrage dynamique des tâches

Réduction de la latence du pipeline, optimisation de l'utilisation des ressources et réduction du coût de traitement par enregistrement de données avec autoscaling des ressources basé sur les données. Les entrées de données sont partitionnées automatiquement et constamment rééquilibrées pour lisser l'utilisation des ressources de nœuds de calcul et réduire les effets des décalages de données sur les performances du pipeline.

Surveillance et observabilité

Observez les données à chaque étape d'un pipeline Dataflow. Diagnostiquez les problèmes et résolvez-les efficacement à l'aide d'échantillons de données réelles. Comparez les différentes exécutions du job pour identifier facilement les problèmes.

Voir toutes les fonctionnalités

Documentation

Documentation

Tutoriel

Serverless Data Processing with Dataflow: Foundations

Formation de base sur tout ce que vous devez savoir sur Dataflow.
Tutoriel

Guide de démarrage rapide Dataflow – Utiliser Python

Configurez votre projet Google Cloud et votre environnement de développement Python, obtenez le SDK Python d'Apache Beam, puis exécutez et modifiez l'exemple WordCount sur le service Dataflow.
Tutoriel

Utiliser Dataflow SQL

Créez une requête SQL et déployez une tâche Dataflow afin d'exécuter cette requête depuis l'interface utilisateur de Dataflow SQL.
Tutoriel

Installer le SDK Apache Beam

Installez le SDK Apache Beam pour exécuter vos pipelines sur le service Dataflow.
Tutoriel

Machine learning avec Apache Beam et TensorFlow

Prétraitez des données et entraînez un modèle de machine learning à prédire l'énergie moléculaire à l'aide d'Apache Beam, de Dataflow et de TensorFlow.
Tutoriel

Tutoriel de Dataflow WordCount avec Java

Dans ce tutoriel, vous allez découvrir les bases du service Cloud Dataflow en exécutant un exemple de pipeline simple basé sur le SDK Java d'Apache Beam.
Tutoriel

Ateliers pratiques : Traiter des données avec Google Cloud Dataflow

Apprenez à traiter un ensemble de données textuelles en temps réel à l'aide de Python et de Dataflow, puis stockez-le dans BigQuery.
Tutoriel

Ateliers pratiques : Traitement par flux avec Pub/Sub et Dataflow

Découvrez comment utiliser Dataflow pour lire des messages publiés dans un sujet Pub/Sub, filtrer des messages par horodatage, et écrire les messages dans Cloud Storage.
Principes de base de Google Cloud

Ressources Dataflow

Découvrez des informations sur les tarifs, les quotas de ressources, les questions fréquentes et plus encore.

Vous ne trouvez pas ce que vous cherchez ?

Cas d'utilisation

Cas d'utilisation

Cas d'utilisation
Analyse de flux

L'analyse de flux de Google permet de mieux organiser les données, et de les rendre utiles et accessibles dès qu'elles sont générées. Basée sur les infrastructures de Pub/Sub, de Dataflow et de BigQuery, notre solution de streaming assure le provisionnement des ressources dont vous avez besoin pour ingérer, traiter et analyser les volumes variables de données en temps réel, et obtenir des insights métier en temps réel. Ce provisionnement distinct réduit la complexité et rend les analyses de flux accessibles aux analystes et aux ingénieurs de données.

Flux sur 5 colonnes : "Trigger" (Déclencher), "Ingest" (Ingérer), "Enrich" (Enrichir), "Analyze" (Analyser) et "Activate" (Activer). Chaque colonne est associée à une section supérieure et inférieure. En haut de la colonne "Trigger" on trouve les appareils de périphérie ("mobile", "Web", "Data Store" et "IoT") dont le flux va vers "Pub/Sub" dans la colonne "Ingest" et vers la colonne "Enrich" et "Apache Beam"/"Dataflow", vers les cadres "Analyze", puis "Activate" où le flux revient aux appareils de périphérie dans la colonne 1. Depuis "Apache Beam" dans la colonne 3, le flux passe d'une colonne à l'autre dans "Analyze", "BigQuery", "AI Platform" et "Bigtable" : les trois flux proviennent de "Backfill" (Remplissage)/"Reprocess" (Retraitement) - "Dataflow Batch" (Lot Dataflow). Le flux passe de "BigQuery" à la colonne "Activate", à "Data Studio", à "Third-party BI" (Informatique décisionnelle tierce) et à "Cloud Functions", qui renvoie vers les appareils de périphérie de la colonne 1. La section inférieure des colonnes, "Creation Flow" (Flux de création) indique pour la colonne "Trigger" : "Configure source to push event message to Pub/Sub topic" ("Configurer la source pour transmettre un message d'événement push à un sujet Pub/Sub") ; pour la colonne "Enrich" "Deploy streaming or batch Dataflow job using templates, CLI, or notebooks" (Déployer des tâches Dataflow par flux ou par lot à l'aide de modèles, de CLI ou de notebooks” ; pour la colonne "Analyze" : "Create dataset, tables, and models to receive stream" (Créer un ensemble de données, des tables et des modèles pour recevoir des flux)" ; pour la colonne "Activate" : "Build real-time dashboards and call external APIs" (Créer des tableaux de bord en temps réel et appeler des API externes).
Cas d'utilisation
IA en temps réel

Dataflow fournit des événements de traitement par flux aux solutions Vertex AI et TensorFlow Extended (TFX) de Google Cloud pour permettre des analyses prédictives, la détection des fraudes, la personnalisation en temps réel et d'autres cas d'analyses avancées. De son côté, TFX utilise Dataflow et Apache Beam comme moteur de traitement de données distribué afin de gérer différents aspects du cycle de vie du ML, le tout étant compatible avec les CI/CD pour le ML via les pipelines Kubeflow.

Cas d'utilisation
Traitement des données de capteurs et de journaux

Tirez pleinement parti des insights métier obtenus par votre réseau mondial d'appareils avec une plate-forme IoT intelligente.

Toutes les fonctionnalités

Toutes les fonctionnalités

Dataflow ML
Déployez et gérez facilement des pipelines de machine learning (ML). Utilisez des modèles de ML pour effectuer des inférences en local et à distance avec des pipelines de traitement par lot et par flux. Utilisez les outils de traitement des données pour préparer vos données à entraîner des modèles et traiter leurs résultats.
GPU Dataflow
Système de traitement des données optimisé pour les performances et les coûts liés à l'utilisation du GPU Compatibilité avec une large gamme de GPU NVIDIA.
Autoscaling vertical
Ajuste de manière dynamique la capacité de calcul allouée à chaque nœud de calcul en fonction de l'utilisation. L'autoscaling vertical fonctionne de pair avec l'autoscaling horizontal pour faire évoluer facilement les nœuds de calcul afin de répondre au mieux aux besoins du pipeline.
Autoscaling horizontal
L'autoscaling horizontal permet au service Dataflow de sélectionner automatiquement le nombre approprié d'instances de nœuds de calcul pour l'exécution de votre tâche. Selon les caractéristiques de la tâche, le service Dataflow peut également réaffecter de façon dynamique plus ou moins de nœuds de calcul pendant l'exécution.
Adaptation des ressources
La fonctionnalité d'ajustement adapté crée des pools de ressources spécifiques et optimisés pour chaque étape afin de réduire le gaspillage de ressources.
Diagnostics intelligents
Suite de fonctionnalités comprenant 1) la gestion des pipelines de données basée sur le SLO ; 2) des fonctionnalités de visualisation des tâches qui fournissent aux utilisateurs un moyen visuel d'inspecter les graphiques des tâches et d'identifier les goulots d'étranglement ; 3) des recommandations automatiques pour identifier et régler les problèmes de performances et de disponibilité.
Streaming Engine
Streaming Engine sépare le calcul du stockage d'état et transfère une partie de l'exécution des pipelines des VM de nœud de calcul vers le backend du service Dataflow. Cette approche améliore considérablement l'autoscaling et la latence des données.
Dataflow Shuffle
La fonctionnalité Dataflow Shuffle basée sur les services transfère l'opération de brassage, utilisée pour regrouper ou associer des données, depuis les VM de nœud de calcul vers le backend du service Dataflow pour les pipelines par lot. Ces pipelines passent facilement à des capacités de centaines de téraoctets sans nécessiter un quelconque réglage.
Dataflow SQL
Dataflow SQL vous permet d'utiliser vos compétences SQL pour développer des pipelines Dataflow de flux de données depuis l'interface Web de BigQuery. Vous pouvez associer des flux de données de Pub/Sub avec des fichiers dans Cloud Storage ou des tables dans BigQuery, écrire les résultats dans BigQuery, et créer des tableaux de bord en temps réel à l'aide de Google Sheets ou d'autres outils d'informatique décisionnelle.
Planification flexible des ressources (FlexRS)
La fonctionnalité FlexRS de Dataflow réduit le coût des traitements par lot en s'appuyant sur des techniques de planification avancées, le service Dataflow Shuffle, et une combinaison d'instances de VM préemptives et de VM standards.
modèles Dataflow
Les modèles Dataflow vous permettent de partager vos pipelines en toute simplicité avec des membres de votre équipe et toute votre entreprise. De nombreux modèles fournis par Google vous donnent également la possibilité d'exécuter des tâches simples, mais utiles, de traitement de données. Cela inclut les modèles de capture de données modifiées pour les cas d'utilisation de l'analyse de flux. Avec Flex Templates, vous pouvez créer un modèle à partir de n'importe quel pipeline Dataflow.
Intégration de notebooks
Développez entièrement des pipelines de manière itérative avec Vertex AI Notebooks et déployez-les avec l'exécuteur Dataflow. Créez des pipelines Apache Beam étape par étape en inspectant les graphiques du pipeline dans un workflow REPL (read-eval-print-loop). Disponible sur Google Vertex AI, Notebooks vous permet d'écrire des pipelines dans un environnement intuitif avec les frameworks les plus récents de science des données et de machine learning.
Capture de données modifiées en temps réel
Synchronisez ou répliquez les données de manière fiable et avec une latence minimale sur des sources de données hétérogènes afin d'optimiser l'analyse de flux. Les modèles Dataflow extensibles s'intègrent à Datastream pour répliquer les données de Cloud Storage vers BigQuery, PostgreSQL ou Spanner. Le connecteur Debezium d'Apache Beam est une solution Open Source permettant d'ingérer les modifications de données de MySQL, PostgreSQL, SQL Server et Db2.
Surveillance intégrée
Grâce à la surveillance intégrée de Dataflow, vous pouvez accéder directement aux métriques de tâche afin de dépanner plus facilement les pipelines de traitement par lot et par flux. Accédez aux graphiques de surveillance aussi bien au niveau des nœuds de calcul que des étapes, et configurez des alertes pour des conditions comme les données non actualisées et les latences système élevées.
Clés de chiffrement gérées par le client
Vous pouvez créer un pipeline par lot ou par flux protégé par une clé de chiffrement gérée par le client (CMEK) ou accéder aux données protégées par la CMEK dans les sources et les récepteurs.
Dataflow VPC Service Controls
L'intégration de Dataflow au service VPC Service Controls renforce votre capacité à limiter le risque d'exfiltration de données. Votre environnement de traitement des données bénéficie ainsi d'un niveau de sécurité supplémentaire.
Adresses IP privées
La désactivation des adresses IP publiques vous permet de mieux sécuriser votre infrastructure de traitement de données. En n'utilisant aucune adresse IP publique pour vos nœuds de calcul Dataflow, vous réduisez par la même occasion le nombre d'adresses IP publiques utilisées par rapport au quota attribué à votre projet Google Cloud.

Tarification

Tarifs

Les tâches Dataflow sont facturées à la seconde, en fonction de l'utilisation réelle des nœuds de calcul par flux ou par lot Dataflow. Les ressources supplémentaires, comme Cloud Storage ou Pub/Sub, sont chacune facturées selon la grille tarifaire de ces services.

Partenaires

Découvrez les solutions partenaires

Les partenaires Google Cloud ont mis au point des intégrations à Dataflow pour vous permettre d'exécuter rapidement et facilement de puissantes tâches de traitement de données complexes de n'importe quelle taille.


Les produits d'IA Google Cloud font l'objet d'un contrat de niveau de service spécifique. Ils peuvent présenter des garanties de latence ou de disponibilité différentes de celles d'autres services Google Cloud.

Passez à l'étape suivante

Profitez de 300 $ de crédits gratuits et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Console
  • Transformation numérique
  • Accélérez la reprise des activités de votre entreprise et assurez-vous un avenir plus serein grâce à des solutions permettant d'effectuer un déploiement hybride et multicloud, de générer des insights intelligents et de maintenir les employés connectés.
  • Faites des économies grâce à notre approche transparente concernant la tarification
  • Le paiement à l'usage de Google Cloud permet de réaliser des économies automatiques basées sur votre utilisation mensuelle et des tarifs réduits pour les ressources prépayées. Contactez-nous dès aujourd'hui afin d'obtenir un devis.
Google Cloud