Dataflow

Traitement des données par flux et par lot sans serveur, à la fois rapide, unifié et économique

Profiter d'un essai gratuit de Dataflow
  • action/check_circle_24px Créé avec Sketch

    Un service de traitement des données entièrement géré

  • action/check_circle_24px Créé avec Sketch

    Gestion et provisionnement automatisés des ressources de traitement

  • action/check_circle_24px Créé avec Sketch

    Autoscaling horizontal des ressources de nœuds de calcul pour une utilisation optimale des ressources

  • action/check_circle_24px Créé avec Sketch

    Innovation impulsée par la communauté dans la création de logiciels Open Source avec le SDK Apache Beam

  • action/check_circle_24px Créé avec Sketch

    Traitement "exactement une fois" fiable et cohérent

Analyse rapide des flux de données

Dataflow accélère et simplifie le développement de pipelines de flux de données tout en réduisant la latence des données.

Simplifiez les opérations et la gestion

L'approche sans serveur de Dataflow supprime les coûts opérationnels liés aux charges de travail des ingénieurs en données. Les équipes peuvent ainsi se concentrer sur la programmation plutôt que sur la gestion des clusters de serveurs.

Réduction du coût total de possession

En associant l'autoscaling des ressources à un traitement par lot économique, Dataflow offre des capacités presque illimitées pour gérer les charges de travail des périodes saisonnières et des pics d'activité, sans dépasser le budget.

Principales fonctionnalités

Gestion automatisée des ressources et rééquilibrage dynamique des tâches

Dataflow automatise le provisionnement et la gestion des ressources de traitement pour optimiser leur utilisation et réduire le plus possible la latence. Vous n'avez donc pas besoin de lancer ni de réserver des instances manuellement. Le partitionnement des tâches est également automatisé et optimisé pour permettre un rééquilibrage dynamique des tâches ralenties. Résultat : inutile de mémoriser les raccourcis clavier ou de prétraiter les données de saisie.

Autoscaling horizontal

L'autoscaling horizontal des ressources de nœuds de calcul pour un débit optimal se traduit par un meilleur rapport performances-prix.

Tarification du traitement par lot dans le cadre de la planification flexible des ressources

La planification flexible des ressources (FlexRS) réduit le coût des traitements par lot grâce à une certaine souplesse dans le traitement des tâches (celles exécutées la nuit, par exemple) pendant la période planifiée. Ces tâches flexibles sont placées dans une file d'attente avec la garantie qu'elles seront récupérées pour être exécutées dans un délai de six heures.

Découvrir toutes les fonctionnalités

Clients

Dow Jones
Dow Jones donne vie à des ensembles de données liés à des événements historiques majeurs avec Dataflow.
Lire le témoignage

Points clés

  • Plus de 30 ans de données de presse synthétisées pour évaluer l'impact sur l'entreprise

  • Détection de relations de données et d'insights masqués

  • Livraison en 10 semaines et en toute simplicité du prototype Knowledge Graph

Partenaire

Documentation

Guide de démarrage rapide
Guide de démarrage rapide Dataflow – Utiliser Python

Configurez votre projet Google Cloud et votre environnement de développement Python, obtenez le SDK Apache Beam, puis exécutez et modifiez l'exemple WordCount sur le service Dataflow.

Tutoriel
Utiliser Dataflow SQL

Créez une requête SQL et déployez une tâche Dataflow afin d'exécuter cette requête depuis l'interface utilisateur de Dataflow SQL.

Tutoriel
Installer le SDK Apache Beam

Installez le SDK Apache Beam pour exécuter vos pipelines sur le service Dataflow.

Tutoriel
Machine learning avec Apache Beam et TensorFlow

Prétraitez des données et entraînez un modèle de machine learning à prédire l'énergie moléculaire à l'aide d'Apache Beam, de Dataflow et de TensorFlow.

Tutoriel
Qwiklab : Principes de base du big data et du ML de Google Cloud

Ce cours à la demande, d'une durée d'une semaine, présente les fonctionnalités d'analyse de données et de machine learning de Google Cloud, y compris la création de pipelines avec Dataflow.

Principes de base de Google Cloud
Ressources Dataflow

Découvrez des informations sur les tarifs, les quotas de ressources, les questions fréquentes et plus encore.

Tutoriel
Possibilités de développement offertes par Google Cloud

Découvrez des guides techniques des ressources Google Cloud concernant Dataflow.

Cas d'utilisation

Cas d'utilisation
Analyse de flux

L'analyse de flux de Google permet de mieux organiser les données, et de les rendre utiles et accessibles dès qu'elles sont générées. Basée sur les infrastructures de Pub/Sub, de Dataflow et de BigQuery, notre solution de streaming assure le provisionnement des ressources dont vous avez besoin pour ingérer, traiter et analyser les volumes variables de données en temps réel, et obtenir des insights métier en temps réel. Ce provisionnement distinct réduit la complexité et rend les analyses de flux accessibles aux analystes et aux ingénieurs de données.

Schéma de l'analyse de flux de Dataflow
Cas d'utilisation
IA en temps réel

Dataflow fournit des événements de traitement par flux aux solutions AI Platform et TensorFlow Extended (TFX) de Google Cloud pour permettre des analyses prédictives, la détection des fraudes, la personnalisation en temps réel et d'autres cas d'analyses avancées. De son côté, TFX utilise Dataflow et Apache Beam comme moteur de traitement de données distribué afin de gérer différents aspects du cycle de vie du ML, le tout étant compatible avec les CI/CD pour le ML via les pipelines Kubeflow.

Cas d'utilisation
Traitement des données de capteurs et de journaux

Tirez pleinement parti des insights métier obtenus par votre réseau mondial d'appareils avec une plate-forme IoT intelligente.

Toutes les fonctionnalités

Streaming Engine Streaming Engine sépare le calcul du stockage d'état et transfère une partie de l'exécution des pipelines des VM de nœud de calcul vers le backend du service Dataflow. Cette approche améliore considérablement l'autoscaling et la latence des données.
Autoscaling L'autoscaling permet au service Dataflow de sélectionner automatiquement le nombre approprié d'instances de nœuds de calcul pour l'exécution de votre tâche. Selon les caractéristiques de la tâche, le service Dataflow peut également réaffecter de façon dynamique plus ou moins de nœuds de calcul pendant l'exécution.
Dataflow Shuffle La fonctionnalité Dataflow Shuffle basée sur les services transfère l'opération de brassage, utilisée pour regrouper ou associer des données, depuis les VM de nœud de calcul vers le backend du service Dataflow pour les pipelines par lot. Ces pipelines passent facilement à des capacités de centaines de téraoctets sans nécessiter un quelconque réglage.
Dataflow SQL Dataflow SQL vous permet d'utiliser vos compétences SQL pour développer des pipelines Dataflow de flux de données depuis l'interface Web de BigQuery. Vous pouvez associer des flux de données de Pub/Sub avec des fichiers dans Cloud Storage ou des tables dans BigQuery, écrire les résultats dans BigQuery, et créer des tableaux de bord en temps réel à l'aide de Google Sheets ou d'autres outils d'informatique décisionnelle.
Planification flexible des ressources (FlexRS) La fonctionnalité FlexRS de Dataflow réduit le coût des traitements par lot en s'appuyant sur des techniques de planification avancées, le service Dataflow Shuffle, et une combinaison d'instances de VM préemptives et de VM standards.
Modèles Dataflow Les modèles Dataflow vous permettent de partager vos pipelines en toute simplicité avec des membres de votre équipe et toute votre entreprise. De nombreux modèles fournis par Google vous donnent également la possibilité d'exécuter des tâches simples, mais utiles, de traitement de données. Avec les modèles Flex, vous pouvez créer un modèle à partir de n'importe quel pipeline Dataflow.
Intégration de notebooks Développez entièrement des pipelines de manière itérative avec AI Platform Notebooks et déployez-les avec l'exécuteur Dataflow. Créez des pipelines Apache Beam étape par étape en inspectant les graphiques du pipeline dans un workflow REPL (read-eval-print-loop). Disponible sur Google AI Platform, Notebooks vous permet d'écrire des pipelines dans un environnement intuitif avec les frameworks les plus récents de science des données et de machine learning.
Surveillance intégrée Grâce à la surveillance intégrée de Dataflow, vous pouvez accéder directement aux métriques de tâche afin de dépanner plus facilement les pipelines de traitement par lot et par flux. Accédez aux graphiques de surveillance aussi bien au niveau des nœuds de calcul que des étapes, et configurez des alertes pour des conditions comme les données non actualisées et les latences système élevées.
Clés de chiffrement gérées par le client Vous pouvez créer un pipeline par lot ou par flux protégé par une clé de chiffrement gérée par le client (CMEK) ou accéder aux données protégées par la CMEK dans les sources et les récepteurs.
Dataflow VPC Service Controls L'intégration de Dataflow au service VPC Service Controls renforce votre capacité à limiter le risque d'exfiltration de données. Votre environnement de traitement des données bénéficie ainsi d'un niveau de sécurité supplémentaire.
Adresses IP privées La désactivation des adresses IP publiques vous permet de mieux sécuriser votre infrastructure de traitement de données. En n'utilisant aucune adresse IP publique pour vos nœuds de calcul Dataflow, vous réduisez par la même occasion le nombre d'adresses IP publiques utilisées par rapport au quota attribué à votre projet Google Cloud.

Tarifs

Les tâches Dataflow sont facturées à la seconde, en fonction de l'utilisation réelle des nœuds de calcul par flux ou par lot Dataflow. Les ressources supplémentaires, comme Cloud Storage ou Pub/Sub, sont chacune facturées selon la grille tarifaire de ces services.

Partenaires

Les partenaires Google Cloud ont mis au point des intégrations à Dataflow pour vous permettre d'exécuter rapidement et facilement de puissantes tâches de traitement de données complexes de n'importe quelle taille.