Cloud Dataflow

Un service de traitement de données entièrement géré, compatible avec l'exécution de pipelines par flux et par lots

Essai gratuit

Une solution gérée et unifiée

Dataflow est un modèle de programmation unifié et un service géré permettant le développement et l'exécution d'une large gamme de modèles de traitement des données tels que le modèle ETL, le calcul par lots et le calcul continu. Cloud Dataflow vous libère de tâches opérationnelles comme la gestion des ressources et l'optimisation des performances.

Une solution entièrement gérée

Ce service géré s'occupe de la durée de vie des ressources et peut en provisionner de manière dynamique pour réduire la latence tout en maintenant la rentabilité du dispositif. Les ressources Dataflow sont allouées à la demande, ce qui vous offre une capacité presque infinie pour répondre à vos défis en matière de traitement de Big Data.

Un modèle de programmation unifié

Les SDK Apache Beam fournissent des primitives de programmation, comme le contrôle performant du fenêtrage et de l'exactitude, qui peuvent être appliquées aux sources de données basées sur des lots et des flux. Le modèle Apache Beam supprime efficacement les frais de transition de modèle de programmation entre le traitement par lots et par flux continus en permettant aux développeurs de définir des exigences de calcul indépendamment de la source de données.

Une solution intégrée et Open Source

Basé sur des services tels que Google Compute Engine, Dataflow est un environnement de calcul familier qui s'intègre parfaitement à Cloud Storage, Cloud Pub/Sub, Cloud Datastore, Cloud BigTable et BigQuery. Les SDK Apache Beam, disponibles en langage Java et Python, permettent aux développeurs de mettre en œuvre des extensions personnalisées et de choisir des moteurs d'exécution alternatifs.

Partenariats et intégrations

Les partenaires et développeurs tiers de Google Cloud Platform ont développé des intégrations avec Dataflow pour effectuer rapidement et facilement des tâches de traitement de données de n'importe quelle taille. Les intégrations sont réalisées avec des API ouvertes fournies par Dataflow.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

Fonctionnalités de Cloud Dataflow

Une exécution fiable pour les tâches de traitement de données à grande échelle

Gestion des ressources
Cloud Dataflow vous permet d'automatiser entièrement la gestion des ressources de traitement nécessaires. Vous n'avez plus besoin de créer manuellement des instances.
Service à la demande
Toutes les ressources sont fournies à la demande afin de les adapter aux besoins de votre entreprise. Plus besoin d'acheter des instances de calcul réservées.
Planification intelligente des tâches
Grâce au partitionnement automatisé et optimisé des tâches, celles qui sont ralenties sont rééquilibrées instantanément. Plus besoin de mémoriser les raccourcis clavier ni de prétraiter vos données de saisie.
Autoscaling
L'autoscaling horizontal des ressources de nœuds de calcul permet de répondre aux exigences en matière de débit, et offre ainsi un meilleur rapport performances-prix.
Modèle de programmation unifié
L'API Dataflow vous permet d'utiliser le modèle MapReduce pour des opérations, un fenêtrage efficace de données et un contrôle précis de l'exactitude quelle que soit la source de données.
Open Source
Les développeurs qui souhaitent étendre le modèle de programmation Dataflow peuvent séparer ou envoyer des requêtes d'extraction sur les SDK Apache Beam. Les pipelines Dataflow peuvent également s'exécuter sur d'autres environnements comme Spark et Flink.
Surveillance
Grâce à son intégration à la console Google Cloud Platform, Cloud Dataflow fournit presque en temps réel des statistiques, telles que le débit des pipelines et la latence, ainsi qu'une inspection consolidée des journaux de nœuds de calcul.
Solution intégrée
Dataflow s'intègre à Cloud Storage, Cloud Pub/Sub, Cloud Datastore, Cloud BigTable et BigQuery pour simplifier le traitement de données. Cet environnement peut être étendu pour interagir avec d'autres sources et récepteurs, comme Apache Kafka et HDFS.
Traitement fiable et cohérent
Cloud Dataflow prend en charge les exécutions tolérantes aux pannes et garantit la cohérence et l'exactitude des opérations indépendamment du volume des données, de la taille des clusters, du modèle de traitement ou de la complexité du pipeline.

"Les flux Google Cloud Dataflow répondent parfaitement aux exigences de la plate-forme d'analyse de séries temporelles Wix.com, notamment en terme d'évolutivité, de traitement de données à faible latence et de calcul tolérant aux pannes. Les nombreuses options de transformations de collecte de données et d'opérations de regroupement nous permettent de mettre en œuvre des algorithmes complexes de traitement de données par flux."

– Gregory Bondar Ph.D, directeur senior de la plate-forme des services de données, Wix.com

Tarifs de Cloud Dataflow

Les tâches Cloud Dataflow sont facturées à la minute et sont basées sur l'utilisation d'au moins un nœud de calcul Cloud Dataflow par lot ou par flux. Une tâche Dataflow peut utiliser d'autres ressources GCP (Cloud Storage, Cloud Pub/Sub, etc.), chacune étant facturée selon ses propres tarifs. Pour en savoir plus sur les tarifs appliqués, consultez la grille tarifaire.

Iowa Oregon Caroline du Sud Belgique Taïwan Tokyo
Type de nœud de calcul Dataflow Processeur virtuel
$/h
Mémoire
$ Go/h
Espace de stockage local – Disque persistant
$ Go/h
Espace de stockage local – Disque SSD
$ Go/h
Lot1
Flux2

1 Valeurs par défaut d'un nœud de calcul par lot : 1 processeur virtuel, 3,75 Go de mémoire, disque persistant de 250 Go

2 Valeurs par défaut d'un nœud de calcul par flux : 4 processeurs virtuels, 15 Go de mémoire, disque persistant de 420 Go

Apache®, Apache Beam et le logo représentant la lettre B en orange sont des marques, déposées ou non, de la société Apache Software Foundation aux États-Unis et/ou dans d'autres pays.