Rejoignez notre session à la conférence Google Cloud Next 2023 pour en savoir plus sur les dernières innovations de Dataflow.
Accéder à
Dataflow

Dataflow

Un traitement des données par flux et par lot sans serveur, à la fois rapide, unifié et économique.

Les nouveaux clients bénéficient de 300 $ de crédits gratuits à dépenser sur Dataflow.

  • Activation et insights en temps réel grâce aux flux de données et au machine learning

  • Un service de traitement des données entièrement géré

  • Gestion et provisionnement automatisés des ressources de traitement

  • Autoscaling horizontal et vertical des ressources de nœuds de calcul pour une utilisation optimale des ressources

  • Innovation impulsée par la communauté dans la création de logiciels Open Source avec le SDK Apache Beam

Avantages

Analyse rapide des flux de données

Dataflow accélère et simplifie le développement de pipelines de flux de données tout en réduisant la latence des données.

Simplification des opérations et de la gestion

L'approche sans serveur de Dataflow supprime les coûts d'exploitation liés aux charges de travail des ingénieurs en données. Les équipes peuvent ainsi se concentrer sur la programmation plutôt que sur la gestion des clusters de serveurs.

Réduction du coût total de possession

En associant l'autoscaling des ressources à un traitement par lot économique, Dataflow offre des capacités presque illimitées pour gérer les charges de travail des périodes saisonnières et des pics d'activité, sans dépasser le budget.

Principales fonctionnalités

Principales fonctionnalités

IA en temps réel prête à l'emploi

Basées sur des fonctionnalités de ML prêtes à l'emploi telles que le GPU NVIDIA et des modèles prêts à l'emploi, les fonctionnalités d'IA en temps réel de Dataflow permettent des réactions en temps réel avec une intelligence presque humaine à de grandes quantités d'événements.

Les clients peuvent développer des solutions intelligentes allant de l'analyse prédictive et de la détection d'anomalies à la personnalisation en temps réel et d'autres cas d'utilisation d'analyse avancée.

Entraînez, déployez et gérez des pipelines de machine learning (ML) complets, y compris des inférences en local et à distance avec des pipelines de traitement par lot et par flux.

Autoscaling des ressources et rééquilibrage dynamique des tâches

Réduction de la latence du pipeline, optimisation de l'utilisation des ressources et réduction du coût de traitement par enregistrement de données avec autoscaling des ressources basé sur les données. Les entrées de données sont partitionnées automatiquement et constamment rééquilibrées pour lisser l'utilisation des ressources de nœuds de calcul et réduire les effets des décalages de données sur les performances du pipeline.

Surveillance et observabilité

Observez les données à chaque étape d'un pipeline Dataflow. Diagnostiquez les problèmes et résolvez-les efficacement à l'aide d'échantillons de données réelles. Comparez les différentes exécutions du job pour identifier facilement les problèmes.

Voir toutes les fonctionnalités

Documentation

Documentation

Tutoriel

Serverless Data Processing with Dataflow: Foundations

Formation de base sur tout ce que vous devez savoir sur Dataflow.
Tutoriel

Guide de démarrage rapide Dataflow – Utiliser Python

Configurez votre projet Google Cloud et votre environnement de développement Python, obtenez le SDK Python d'Apache Beam, puis exécutez et modifiez l'exemple WordCount sur le service Dataflow.
Tutoriel

Utiliser Dataflow SQL

Créez une requête SQL et déployez une tâche Dataflow afin d'exécuter cette requête depuis l'interface utilisateur de Dataflow SQL.
Tutoriel

Installer le SDK Apache Beam

Installez le SDK Apache Beam pour exécuter vos pipelines sur le service Dataflow.
Tutoriel

Machine learning avec Apache Beam et TensorFlow

Prétraitez des données et entraînez un modèle de machine learning à prédire l'énergie moléculaire à l'aide d'Apache Beam, de Dataflow et de TensorFlow.