Dataflow
Un traitement des données par flux et par lot sans serveur, à la fois rapide, unifié et économique.
Les nouveaux clients bénéficient de 300 $ de crédits gratuits à dépenser sur Dataflow.
-
Un service de traitement des données entièrement géré
-
Gestion et provisionnement automatisés des ressources de traitement
-
Autoscaling horizontal des ressources de nœuds de calcul pour une utilisation optimale des ressources
-
Innovation impulsée par la communauté dans la création de logiciels Open Source avec le SDK Apache Beam
-
Traitement "exactement une fois" fiable et cohérent
Avantages
Analyse rapide des flux de données
Dataflow accélère et simplifie le développement de pipelines de flux de données tout en réduisant la latence des données.
Simplification des opérations et de la gestion
L'approche sans serveur de Dataflow supprime les coûts d'exploitation liés aux charges de travail des ingénieurs en données. Les équipes peuvent ainsi se concentrer sur la programmation plutôt que sur la gestion des clusters de serveurs.
Réduction du coût total de possession
En associant l'autoscaling des ressources à un traitement par lot économique, Dataflow offre des capacités presque illimitées pour gérer les charges de travail des périodes saisonnières et des pics d'activité, sans dépasser le budget.
Principales fonctionnalités
Principales fonctionnalités
Autoscaling des ressources et rééquilibrage dynamique des tâches
Réduction de la latence du pipeline, optimisation de l'utilisation des ressources et réduction du coût de traitement par enregistrement de données avec autoscaling des ressources basé sur les données. Les entrées de données sont partitionnées automatiquement et constamment rééquilibrées pour lisser l'utilisation des ressources de nœuds de calcul et réduire les effets des décalages de données sur les performances du pipeline.
Planification et tarification flexibles pour le traitement par lot
La planification flexible des ressources (FlexRS) réduit le coût des traitements par lot grâce à une certaine souplesse dans le traitement des tâches (celles exécutées la nuit, par exemple) pendant la période planifiée. Ces tâches flexibles sont placées dans une file d'attente avec la garantie qu'elles seront récupérées pour être exécutées dans un délai de six heures.
Modèles d'IA en temps réel prêts à l'emploi
Grâce à des modèles prêts à l'emploi, les fonctionnalités d'IA en temps réel de Dataflow permettent des réactions en temps réel avec une intelligence quasi humaine à de grandes quantités d'événements. Les clients peuvent développer des solutions intelligentes allant de l'analyse prédictive et de la détection d'anomalies à la personnalisation en temps réel et d'autres cas d'utilisation d'analyse avancée.
Documentation
Documentation
Serverless Data Processing with Dataflow: Foundations
Formation de base sur tout ce que vous devez savoir sur Dataflow.
Guide de démarrage rapide Dataflow – Utiliser Python
Configurez votre projet Google Cloud et votre environnement de développement Python, obtenez le SDK Python d'Apache Beam, puis exécutez et modifiez l'exemple WordCount sur le service Dataflow.
Utiliser Dataflow SQL
Créez une requête SQL et déployez une tâche Dataflow afin d'exécuter cette requête depuis l'interface utilisateur de Dataflow SQL.
Installer le SDK Apache Beam
Installez le SDK Apache Beam pour exécuter vos pipelines sur le service Dataflow.
Machine learning avec Apache Beam et TensorFlow
Prétraitez des données et entraînez un modèle de machine learning à prédire l'énergie moléculaire à l'aide d'Apache Beam, de Dataflow et de TensorFlow.
Tutoriel de Dataflow WordCount avec Java
Dans ce tutoriel, vous allez découvrir les bases du service Cloud Dataflow en exécutant un exemple de pipeline simple basé sur le SDK Java d'Apache Beam.
Ateliers pratiques : Traiter des données avec Google Cloud Dataflow
Apprenez à traiter un ensemble de données textuelles en temps réel à l'aide de Python et de Dataflow, puis stockez-le dans BigQuery.
Ateliers pratiques : Traitement par flux avec Pub/Sub et Dataflow
Découvrez comment utiliser Dataflow pour lire des messages publiés dans un sujet Pub/Sub, filtrer des messages par horodatage, et écrire les messages dans Cloud Storage.
Ressources Dataflow
Découvrez des informations sur les tarifs, les quotas de ressources, les questions fréquentes et plus encore.
Cas d'utilisation
Cas d'utilisation
L'analyse de flux de Google permet de mieux organiser les données, et de les rendre utiles et accessibles dès qu'elles sont générées. Basée sur les infrastructures de Pub/Sub, de Dataflow et de BigQuery, notre solution de streaming assure le provisionnement des ressources dont vous avez besoin pour ingérer, traiter et analyser les volumes variables de données en temps réel, et obtenir des insights métier en temps réel. Ce provisionnement distinct réduit la complexité et rend les analyses de flux accessibles aux analystes et aux ingénieurs de données.
Dataflow fournit des événements de traitement par flux aux solutions Vertex AI et TensorFlow Extended (TFX) de Google Cloud pour permettre des analyses prédictives, la détection des fraudes, la personnalisation en temps réel et d'autres cas d'analyses avancées. De son côté, TFX utilise Dataflow et Apache Beam comme moteur de traitement de données distribué afin de gérer différents aspects du cycle de vie du ML, le tout étant compatible avec les CI/CD pour le ML via les pipelines Kubeflow.
Tirez pleinement parti des insights métier obtenus par votre réseau mondial d'appareils avec une plate-forme IoT intelligente.
Toutes les fonctionnalités
Toutes les fonctionnalités
Nouveauté de Dataflow Prime : l'autoscaling vertical | Ajuste de manière dynamique la capacité de calcul allouée à chaque nœud de calcul en fonction de l'utilisation. L'autoscaling vertical fonctionne de pair avec l'autoscaling horizontal pour faire évoluer facilement les nœuds de calcul afin de répondre au mieux aux besoins du pipeline. |
Nouveauté de Dataflow Prime : l'ajustement adapté | La fonctionnalité d'ajustement adapté crée des pools de ressources spécifiques et optimisés pour chaque étape afin de réduire le gaspillage de ressources. |
Nouveauté de Dataflow Prime : les diagnostics intelligents | Suite de fonctionnalités comprenant 1) la gestion des pipelines de données basée sur le SLO ; 2) des fonctionnalités de visualisation des tâches qui fournissent aux utilisateurs un moyen visuel d'inspecter les graphiques des tâches et d'identifier les goulots d'étranglement ; 3) des recommandations automatiques pour identifier et régler les problèmes de performances et de disponibilité. |
Streaming Engine | Streaming Engine sépare le calcul du stockage d'état et transfère une partie de l'exécution des pipelines des VM de nœud de calcul vers le backend du service Dataflow. Cette approche améliore considérablement l'autoscaling et la latence des données. |
Autoscaling horizontal | L'autoscaling horizontal permet au service Dataflow de sélectionner automatiquement le nombre approprié d'instances de nœuds de calcul pour l'exécution de votre tâche. Selon les caractéristiques de la tâche, le service Dataflow peut également réaffecter de façon dynamique plus ou moins de nœuds de calcul pendant l'exécution. |
Dataflow Shuffle | La fonctionnalité Dataflow Shuffle basée sur les services transfère l'opération de brassage, utilisée pour regrouper ou associer des données, depuis les VM de nœud de calcul vers le backend du service Dataflow pour les pipelines par lot. Ces pipelines passent facilement à des capacités de centaines de téraoctets sans nécessiter un quelconque réglage. |
Dataflow SQL | Dataflow SQL vous permet d'utiliser vos compétences SQL pour développer des pipelines Dataflow de flux de données depuis l'interface Web de BigQuery. Vous pouvez associer des flux de données de Pub/Sub avec des fichiers dans Cloud Storage ou des tables dans BigQuery, écrire les résultats dans BigQuery, et créer des tableaux de bord en temps réel à l'aide de Google Sheets ou d'autres outils d'informatique décisionnelle. |
Planification flexible des ressources (FlexRS) | La fonctionnalité FlexRS de Dataflow réduit le coût des traitements par lot en s'appuyant sur des techniques de planification avancées, le service Dataflow Shuffle, et une combinaison d'instances de VM préemptives et de VM standards. |
Modèles Dataflow | Les modèles Dataflow vous permettent de partager vos pipelines en toute simplicité avec des membres de votre équipe et toute votre entreprise. De nombreux modèles fournis par Google vous donnent également la possibilité d'exécuter des tâches simples, mais utiles, de traitement de données. Cela inclut les modèles de capture de données modifiées pour les cas d'utilisation de l'analyse de flux. Avec Flex Templates, vous pouvez créer un modèle à partir de n'importe quel pipeline Dataflow. |
Intégration de notebooks | Développez entièrement des pipelines de manière itérative avec Vertex AI Notebooks et déployez-les avec l'exécuteur Dataflow. Créez des pipelines Apache Beam étape par étape en inspectant les graphiques du pipeline dans un workflow REPL (read-eval-print-loop). Disponible sur Google Vertex AI, Notebooks vous permet d'écrire des pipelines dans un environnement intuitif avec les frameworks les plus récents de science des données et de machine learning. |
Capture de données modifiées en temps réel | Synchronisez ou répliquez les données de manière fiable et avec une latence minimale sur des sources de données hétérogènes afin d'optimiser l'analyse de flux. Les modèles Dataflow extensibles s'intègrent à Datastream pour répliquer les données de Cloud Storage vers BigQuery, PostgreSQL ou Cloud Spanner. Le connecteur Debezium d'Apache Beam est une solution Open Source permettant d'ingérer les modifications de données de MySQL, PostgreSQL, SQL Server et Db2. |
Surveillance intégrée | Grâce à la surveillance intégrée de Dataflow, vous pouvez accéder directement aux métriques de tâche afin de dépanner plus facilement les pipelines de traitement par lot et par flux. Accédez aux graphiques de surveillance aussi bien au niveau des nœuds de calcul que des étapes, et configurez des alertes pour des conditions comme les données non actualisées et les latences système élevées. |
Clés de chiffrement gérées par le client | Vous pouvez créer un pipeline par lot ou par flux protégé par une clé de chiffrement gérée par le client (CMEK) ou accéder aux données protégées par la CMEK dans les sources et les récepteurs. |
Dataflow VPC Service Controls | L'intégration de Dataflow au service VPC Service Controls renforce votre capacité à limiter le risque d'exfiltration de données. Votre environnement de traitement des données bénéficie ainsi d'un niveau de sécurité supplémentaire. |
Adresses IP privées | La désactivation des adresses IP publiques vous permet de mieux sécuriser votre infrastructure de traitement de données. En n'utilisant aucune adresse IP publique pour vos nœuds de calcul Dataflow, vous réduisez par la même occasion le nombre d'adresses IP publiques utilisées par rapport au quota attribué à votre projet Google Cloud. |
Tarifs
Tarifs
Les tâches Dataflow sont facturées à la seconde, en fonction de l'utilisation réelle des nœuds de calcul par flux ou par lot Dataflow. Les ressources supplémentaires, comme Cloud Storage ou Pub/Sub, sont chacune facturées selon la grille tarifaire de ces services.
Les produits d'IA Google Cloud font l'objet d'un contrat de niveau de service spécifique. Ils peuvent présenter des garanties de latence ou de disponibilité différentes de celles d'autres services Google Cloud.