Cloud Dataflow

Traitement des données par flux et par lots simplifié, avec une fiabilité et une expressivité égales

Essai gratuit

Développement accéléré, gestion facilitée

Cloud Dataflow est un service entièrement géré permettant de transformer et d'enrichir les données en mode flux (temps réel) ou lot (historique) avec une fiabilité et une expressivité égales. Vous n'avez donc plus besoin de trouver des solutions alternatives complexes ni de faire des compromis. Grâce à l'approche sans serveur du provisionnement et de la gestion des ressources, vous disposez de possibilités d'intégration quasi illimitées pour répondre à vos plus grands défis en matière de traitement de données, en ne payant que ce que vous utilisez.

Cloud Dataflow fournit des solutions de transformation adaptées à tous les secteurs d'activité, y compris les suivantes :

  • check Analyse des flux de clics, des points de vente et des segmentations pour le commerce
  • check Détection des fraudes pour les services financiers
  • check Expérience utilisateur personnalisée pour les jeux vidéo
  • check Analytique IdO pour les secteurs de la fabrication, de la santé et de la logistique
développement-accéléré-gestion-facilitée

Développement accéléré pour le traitement par flux et par lot

Cloud Dataflow permet le développement rapide et simplifié de pipelines par le biais d'API Java et Python expressives dans le SDK Apache Beam, offrant ainsi un large éventail de primitives de fenêtrage et d'analyse de sessions, ainsi qu'un écosystème de connecteurs sources et de récepteurs. De plus, le modèle de développement unique et unifié de Beam vous permet de réutiliser davantage de code dans tous vos pipelines de traitement par flux et par lot.

développement-accéléré-sans-compromis

Simplification des opérations et de la gestion

L'approche sans serveur de GCP élimine certains coûts opérationnels grâce à la gestion automatique des performances, du scaling, de la disponibilité, de la sécurité et de la conformité, ce qui permet aux utilisateurs de se concentrer sur la programmation au lieu de devoir gérer des clusters de serveurs. L'intégration à Stackdriver, la solution de journalisation et de surveillance unifiée de GCP, vous permet de surveiller et de dépanner vos pipelines en cours d'exécution. Grâce à l'affichage détaillé, la journalisation et les alertes avancées, vous pouvez identifier et résoudre les problèmes potentiels.

simplification-des-opérations-et-de-la-gestion

Une base de développement pour le machine learning

Appuyez-vous sur Cloud Dataflow comme point d'intégration pratique pour appliquer l'analyse prédictive à la détection des fraudes, à la personnalisation en temps réel et à d'autres cas d'utilisation similaires : ajoutez des modèles et des API Cloud Machine Learning basés sur TensorFlow à vos pipelines de traitement des données.

une-base-de-développement-pour-le-machine-learning

Servez-vous de vos outils habituels et préférés

Cloud Dataflow s'intègre parfaitement aux services GCP pour l'ingestion des événements en streaming (Cloud Pub/Sub), l'entreposage de données (BigQuery), le machine learning (Cloud Machine Learning) et plus encore. Le SDK basé sur Beam permet également aux développeurs de créer des extensions personnalisées et même de choisir d'autres moteurs d'exécution comme Apache Spark, via Cloud Dataproc ou sur site. Pour les utilisateurs d'Apache Kafka, un connecteur Cloud Dataflow facilite l'intégration à GCP.

servez-vous-de-vos-outils-habituels-et-préférés

Transformation des données avec Cloud Dataflow

schéma-dataflow

FONCTIONNALITÉS DE CLOUD DATAFLOW

Gestion automatisée des ressources
Cloud Dataflow permet d'automatiser le provisionnement et la gestion des ressources de traitement afin de réduire la latence et d'optimiser l'utilisation, ce qui vous évite d'avoir à créer manuellement des instances ou de les réserver.
Rééquilibrage dynamique du travail
Le partitionnement automatisé et optimisé permet de rééquilibrer instantanément les tâches ralenties. Vous n'avez plus besoin de mémoriser les raccourcis clavier ni de prétraiter vos données de saisie.
Traitement fiable et stable des données "exactement une fois"
Assure une prise en charge intégrée des exécutions tolérantes aux pannes, et garantit la cohérence et l'exactitude des opérations indépendamment du volume des données, de la taille des clusters, du modèle de traitement ou de la complexité du pipeline.
Autoscaling horizontal
L'autoscaling horizontal des ressources de nœuds de calcul pour un débit optimal se traduit par un meilleur rapport performances-prix.
Modèle de programmation unifié
Le SDK Apache Beam permet des opérations enrichies sur le modèle MapReduce, un fenêtrage efficace des données et un contrôle précis de l'exactitude, aussi bien pour les flux de données que pour les données par lot.
Innovation impulsée par la communauté
Les développeurs désireux d'étendre le modèle de programmation Cloud Dataflow peuvent s'orienter vers Apache Beam et/ou y apporter leur contribution.

Cloud Dataflow ou Cloud Dataproc : quelle solution choisir ?

Les deux solutions Cloud Dataproc et Cloud Dataflow peuvent être utilisées pour le traitement des données, et possèdent des capacités communes de traitement par flux et par lot. Comment déterminer quelle est la solution la mieux adaptée à votre environnement ?
Dataproc ou Dataflow

Cloud Dataproc

Cloud Dataproc est une bonne solution pour les environnements qui dépendent de composants spécifiques de l'écosystème big data Apache :

  • check Outils/Packages
  • check Pipelines
  • check Compétences des ressources existantes

Cloud Dataflow

Cloud Dataflow est généralement la solution de choix pour les environnements complètement nouveaux :

  • check Réduction des coûts opérationnels
  • check Approche unifiée du développement de pipelines par flux ou par lot
  • check Utilisation d'Apache Beam
  • check Portabilité des pipelines entre Cloud Dataflow, Apache Spark et Apache Flink en tant qu'environnements d'exécution

Charges de travail recommandées

CHARGES DE TRAVAIL CLOUD DATAPROC CLOUD DATAFLOW
Traitement par flux (ETL) check
Traitement par lot (ETL) check check
Traitement itératif et notebooks check
Machine learning avec Spark ML check
Prétraitement pour le machine learning check (avec Cloud ML Engine)

Partenariats et intégrations

Les partenaires et développeurs tiers de Google Cloud Platform ont mis au point des intégrations avec Dataflow pour effectuer rapidement et facilement des tâches de traitement de données de n'importe quelle taille.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

"L'exécution de nos pipelines sur Cloud Dataflow nous permet de nous concentrer sur la programmation sans devoir nous soucier du déploiement ni de la maintenance des instances exécutant notre code (et c'est l'une des caractéristiques principales de GCP)."

– Jibran Saithi Architecte principal, Qubit

Tarifs avantageux

Les tâches Cloud Dataflow sont facturées par incréments d'une seconde, selon l'utilisation réelle des nœuds de calcul Cloud Dataflow par flux ou par lot. Les tâches consommant des ressources GCP supplémentaires, telles que Cloud Storage ou Cloud Pub/Sub, sont facturées individuellement, selon la grille tarifaire de ces services.

Iowa Oregon Virginie du Nord Caroline du Sud Montréal São Paulo Belgique Londres Pays-Bas Francfort Mumbai Singapour Sydney Taïwan Tokyo
Type de nœud de calcul Cloud Dataflow Processeur virtuel
$/h
Mémoire
$ Go/h
Espace de stockage – Disque persistant standard
$ Go/h
Espace de stockage – Disque persistant SSD
$ Go/h
Données traitées par Shuffle3
$ Go4
Lots 1
Flux 2
Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page relative aux SKU de Cloud Platform s'appliquent.

1 Valeurs par défaut d'un nœud de calcul par lot : 1 processeur virtuel, 3,75 Go de mémoire, disque persistant de 250 Go

2 Valeurs par défaut d'un nœud de calcul par flux : 4 processeurs virtuels, 15 Go de mémoire, disque persistant de 420 Go

3 La fonctionnalité Cloud Dataflow Shuffle basée sur les services n'est actuellement disponible en version bêta que pour les pipelines de traitement par lot dans les régions us-central1 (Iowa) et europe-west1 (Belgique). D'autres régions seront ajoutées ultérieurement.

4 Pour plus d'informations sur les données traitées par Shuffle, consultez les tarifs de Cloud Dataflow.