VM évolutives et hautes performances
Traitement des données par flux et par lot, à la fois rapide et unifié

Dataflow est un service entièrement géré d'analyse de flux qui permet de réduire la latence, la durée des traitements ainsi que les coûts grâce à l'autoscaling et au traitement par lot. À travers son approche sans serveur de gestion et de provisionnement des ressources, Dataflow vous offre des capacités presque illimitées pour relever vos plus grands défis de traitement des données. Et vous ne payez que ce que vous utilisez.

  • Gestion et provisionnement automatisés des ressources de traitement
  • Autoscaling horizontal des ressources de nœuds de calcul pour une utilisation optimale des ressources
  • Modèle unifié de programmation par flux et par lot
  • Innovation impulsée par la communauté dans la création de logiciels Open Source avec le SDK Apache Beam
  • Traitement "exactement une fois" fiable et cohérent

Analyses rapides des flux de données

Dataflow accélère et simplifie le développement de pipelines de flux tout en réduisant la latence des données.

Simplification des opérations et de la gestion

L'approche sans serveur de Dataflow supprime les coûts d'exploitation liés aux charges de travail des ingénieurs en données. Les équipes peuvent ainsi se concentrer sur la programmation plutôt que sur la gestion des clusters de serveurs.

Réduction du coût total de possession

En associant l'autoscaling des ressources à un traitement par lot économique, Dataflow offre des capacités presque illimitées pour gérer les charges de travail des périodes saisonnières et des pics d'activité, sans dépasser le budget.

Principales fonctionnalités

Gestion automatisée des ressources et rééquilibrage dynamique des tâches

Dataflow automatise le provisionnement et la gestion des ressources de traitement pour optimiser leur utilisation et réduire la latence au maximum. Vous n'avez donc pas besoin de lancer ni de réserver des instances manuellement. Le partitionnement des tâches est également automatisé et optimisé pour permettre un rééquilibrage dynamique des tâches ralenties. Résultat : inutile de mémoriser les raccourcis clavier ni de prétraiter les données de saisie.

Autoscaling horizontal

L'autoscaling horizontal des ressources de nœuds de calcul pour un débit optimal se traduit par un meilleur rapport performances-prix.

Tarification du traitement par lot dans le cadre de la planification flexible des ressources

La planification flexible des ressources (FlexRS) réduit le coût des traitements par lot pour offrir une certaine souplesse dans le traitement des tâches (celles exécutées la nuit, par exemple) pendant la période planifiée. Ces tâches flexibles sont placées dans une file d'attente avec la garantie qu'elles seront récupérées pour être exécutées dans un délai de six heures.

Découvrir toutes les fonctionnalités

Témoignages de clients

Points clés

  • Synthétisation de plus de 30 ans de données d'actualité non structurées pour évaluer l'impact qualitatif d'événements majeurs sur l'entreprise

  • Définition d'opérations réseau complexes pour mettre en lumière les relations et insights cachés

  • Livraison en 10 semaines et en toute simplicité du prototype Knowledge Graph

Partenaire

Voir d'autres clients

Nouveautés

Documentation

Tutoriel
Guide de démarrage rapide Dataflow – Utiliser Python

Configurez votre projet Google Cloud et votre environnement de développement Python, obtenez le SDK Apache Beam, puis exécutez et modifiez l'exemple WordCount sur le service Dataflow.

Tutoriel
Utiliser Dataflow SQL

Créez une requête SQL et déployez une tâche Dataflow afin d'exécuter cette requête depuis l'interface utilisateur de Dataflow SQL.

Tutoriel
Installer le SDK Apache Beam

Installez le SDK Apache Beam pour exécuter vos pipelines sur le service Dataflow.

Tutoriel
Machine learning (ML) avec Apache Beam et TensorFlow

Découvrez comment prétraiter des données et entraîner un modèle de machine learning à prédire l'énergie moléculaire à l'aide d'Apache Beam, de Dataflow et de TensorFlow.

Cas d'utilisation courants

Analyse de flux

Les analyses de flux de Google Cloud permettent de mieux organiser les données, et de les rendre utiles et accessibles dès qu'elles sont générées. Basée sur l'infrastructure d'autoscaling de Dataflow, ainsi que sur Pub/Sub et BigQuery, notre solution assure le provisionnement des ressources dont vous avez besoin pour ingérer, traiter et analyser les volumes variables de données en temps réel pour obtenir des insights métier instantanément. Ce provisionnement abstrait réduit la complexité et rend les analyses de flux accessibles à la fois aux analystes et aux ingénieurs de données.

Architecture illustrant une analyse de fluxTriggerAnalyzeActivateData StudioThird-party BlCreation FlowConfigure source to push event message to Pub/Sub Topic Create Pub/Sub Topic and Subscription Deploy streaming or batch Dataflow job using templates, CLI, or notebooksCreate dataset, tables, and models to receive streamBuild real-time dashboards and call external APIs IngestEnrichAnalyzeActivateEdgeMobileWebData StoreIoTPub/SubBigQueryAl PlatformBigtable Cloud FunctionsDataflow StreamingApache Beam (SDK)Dataflow BatchBackfill/ReprocessArchitecture
Traitement des données de capteurs et de journaux

Misez sur une plate-forme IoT intelligente pour libérer tout le potentiel des insights métier de votre parc mondial d'appareils.

IA en temps réel

Dataflow fournit des événements de traitement par flux aux solutions AI Platform et TensorFlow Extended (TFX) de Google Cloud pour permettre des analyses prédictives, la détection des fraudes, la personnalisation en temps réel et d'autres cas d'analyses avancées. De son côté, TFX utilise Dataflow et Apache Beam comme moteur de traitement de données distribué afin de gérer différents aspects du cycle de vie du ML, le tout étant compatible avec les CI/CD pour le ML via les pipelines Kubeflow.

Toutes les fonctionnalités

Autoscaling L'autoscaling permet au service Dataflow de sélectionner automatiquement le nombre approprié d'instances de nœuds de calcul pour l'exécution de votre tâche. Selon les caractéristiques de la tâche, le service Dataflow peut également réaffecter de façon dynamique plus ou moins de nœuds de calcul pendant l'exécution.
Streaming Engine Streaming Engine sépare le calcul du stockage d'état et transfère une partie de l'exécution des pipelines des VM de calcul vers le backend du service Dataflow. Cette approche améliore considérablement l'autoscaling et la latence des données.
Dataflow Shuffle La fonctionnalité Dataflow Shuffle basée sur les services transfère l'opération de lecture aléatoire, utilisée pour regrouper ou associer des données, depuis les VM de calcul vers le backend du service Dataflow pour les pipelines par lots. Ces pipelines passent en toute transparence à des capacités de centaines de téraoctets sans nécessiter un quelconque réglage.
Dataflow SQL Dataflow SQL vous permet d'utiliser vos compétences SQL pour développer des pipelines Dataflow de flux de données depuis l'interface Web de BigQuery. Vous pouvez associer des flux de données de Pub/Sub avec des fichiers dans Cloud Storage ou des tables dans BigQuery, écrire les résultats dans BigQuery, et créer des tableaux de bord en temps réel à l'aide de Google Sheets ou d'autres outils de veille stratégique (BI).
Planification flexible des ressources (FlexRS) La fonctionnalité FlexRS de Dataflow réduit le coût des traitements par lot en s'appuyant sur des techniques de planification avancées, le service Dataflow Shuffle, et une combinaison d'instances de VM préemptives et de VM standards.
Modèles Dataflow Les modèles Dataflow vous permettent de partager vos pipelines en toute simplicité avec des membres de votre équipe et toute votre entreprise. De nombreux modèles fournis par Google vous donnent également la possibilité d'exécuter des tâches, simples mais utiles, de traitement des données.
Surveillance intégrée La fonctionnalité de surveillance intégrée de Dataflow vous permet d'interagir avec vos différentes tâches et d'accéder directement aux métriques les concernant. Vous pouvez également configurer des alertes pour les données obsolètes et les latences système élevées.
Clés de chiffrement gérées par le client Vous pouvez créer un pipeline par lot ou par flux protégé par une clé de chiffrement gérée par le client (CMEK) ou accéder aux données protégées par la CMEK dans les sources et les récepteurs.
Dataflow VPC Service Controls L'intégration de Dataflow au service VPC Service Controls renforce votre capacité à limiter le risque d'exfiltration de données. Votre environnement de traitement des données bénéficie ainsi d'un niveau de sécurité supplémentaire.
Adresses IP privées La désactivation des adresses IP publiques vous permet de mieux sécuriser votre infrastructure de traitement de données. En n'utilisant aucune adresse IP publique pour vos nœuds de calcul Dataflow, vous réduisez par la même occasion le nombre d'adresses IP publiques utilisées par rapport au quota attribué à votre projet Google Cloud.

Tarifs

Les tâches Dataflow sont facturées par tranche d'une seconde en fonction de l'utilisation réelle des nœuds de calcul Dataflow lors des traitements par flux ou par lot. Les tâches qui consomment des ressources Google Cloud supplémentaires, comme Cloud Storage ou Pub/Sub, sont chacune facturées selon la grille tarifaire de ces services.

Afficher le détail des tarifs

Partenaires

Les partenaires et développeurs tiers de Google Cloud ont mis au point des intégrations à Dataflow pour vous permettre d'exécuter rapidement et facilement des tâches de traitement de données de n'importe quelle taille.