Cloud Dataflow

Traitement des données par flux et par lots simplifié, avec une fiabilité et une expressivité égales

Profiter d'un essai gratuit

Développement accéléré, gestion facilitée

Cloud Dataflow est un service entièrement géré permettant de transformer et d'enrichir les données en mode flux (temps réel) ou lot (historique) avec une fiabilité et une expressivité égales. Vous n'avez donc plus besoin de trouver des solutions alternatives complexes ni de faire des compromis. Grâce à l'approche sans serveur du provisionnement et de la gestion des ressources, vous disposez de possibilités d'intégration quasi illimitées pour répondre à vos plus grands défis en matière de traitement de données, en ne payant que ce que vous utilisez.

Cloud Dataflow fournit des solutions de transformation adaptées à tous les secteurs d'activité, y compris les suivantes :

  • Analyse des flux de clics, des points de vente et des segmentations pour le commerce
  • Détection des fraudes pour les services financiers
  • Expérience utilisateur personnalisée pour les jeux vidéo
  • Données analytiques IoT pour les secteurs de la fabrication, de la santé et de la logistique
développement-accéléré-gestion-facilitée

Développement accéléré pour le traitement par flux et par lots

Cloud Dataflow permet de développer rapidement et facilement des pipelines dans le SDK Apache Beam, par le biais d'API SQL, Java et Python expressives. Il fournit de nombreuses primitives de fenêtrage et d'analyse de sessions, ainsi qu'un écosystème de connecteurs de sources et de récepteurs. De plus, le modèle de développement unique et unifié de Beam vous permet de réutiliser davantage de code dans tous vos pipelines de traitement par flux et par lots.

Pour être informé de la disponibilité (prochaine) de la version alpha de Dataflow SQL, veuillez remplir ce formulaire. Nous vous contacterons dès qu'elle sera prête à être utilisée.

développement-accéléré-sans-compromis

Simplification des opérations et de la gestion

L'approche sans serveur de GCP élimine certains coûts opérationnels grâce à la gestion automatique des performances, du scaling, de la disponibilité, de la sécurité et de la conformité, ce qui permet aux utilisateurs de se concentrer sur la programmation au lieu de devoir gérer des clusters de serveurs. L'intégration à Stackdriver, la solution de journalisation et de surveillance unifiée de GCP, vous permet de surveiller et de dépanner vos pipelines en cours d'exécution. Grâce à l'affichage détaillé, la journalisation et les alertes avancées, vous pouvez identifier et résoudre les problèmes potentiels.

simplification-des-opérations-et-de-la-gestion

Une base de développement pour le machine learning

Appuyez-vous sur Cloud Dataflow comme point d'intégration pratique pour appliquer l'analyse prédictive à la détection des fraudes, à la personnalisation en temps réel et à d'autres cas d'utilisation similaires : ajoutez des modèles et des API Cloud Machine Learning basés sur TensorFlow à vos pipelines de traitement des données.

une-base-de-développement-pour-le-machine-learning

Servez-vous de vos outils habituels et préférés

Cloud Dataflow s'intègre parfaitement aux services GCP pour l'ingestion d'événements de traitement par flux (Cloud Pub/Sub), l'entreposage de données (BigQuery), le machine learning (Cloud Machine Learning) et plus encore. Le SDK basé sur Beam permet également aux développeurs de créer des extensions personnalisées et même de choisir d'autres moteurs d'exécution comme Apache Spark, via Cloud Dataproc ou sur site. Pour les utilisateurs d'Apache Kafka, un connecteur Cloud Dataflow facilite l'intégration à GCP.

servez-vous-de-vos-outils-habituels-et-préférés

Transformation des données avec Cloud Dataflow

schéma-dataflow

FONCTIONNALITÉS DE CLOUD DATAFLOW

Gestion automatisée des ressources
Cloud Dataflow permet d'automatiser le provisionnement et la gestion des ressources de traitement afin de réduire la latence et d'optimiser l'utilisation, ce qui vous évite d'avoir à créer manuellement des instances ou de les réserver.
Rééquilibrage dynamique des tâches
Le partitionnement automatisé et optimisé permet de rééquilibrer instantanément les tâches ralenties. Vous n'avez plus besoin de mémoriser les raccourcis clavier ni de prétraiter vos données de saisie.
Traitement fiable et stable des données "exactement une fois"
Assure une prise en charge intégrée des exécutions tolérantes aux pannes, et garantit la cohérence et l'exactitude des opérations indépendamment du volume des données, de la taille des clusters, du modèle de traitement ou de la complexité du pipeline.
Autoscaling horizontal
L'autoscaling horizontal des ressources de nœuds de calcul pour un débit optimal se traduit par un meilleur rapport performances-prix.
Modèle de programmation unifié
Le SDK Apache Beam permet des opérations enrichies sur le modèle MapReduce, un fenêtrage efficace des données et un contrôle précis de l'exactitude, aussi bien pour les données par flux que pour les données par lots.
Innovation impulsée par la communauté
Les développeurs désireux d'étendre le modèle de programmation Cloud Dataflow peuvent s'orienter vers Apache Beam et/ou y apporter leur contribution.
Tarification du traitement par lots dans le cadre de la planification flexible des ressources
Pour offrir une certaine souplesse dans le traitement des tâches (telles que celles exécutées la nuit) pendant la période planifiée, la planification flexible des ressources réduit le coût du traitement par lots. Ces tâches flexibles sont mises en file d'attente avec la garantie qu'elles seront récupérées pour être exécutées dans un délai de six heures.

Cloud Dataflow ou Cloud Dataproc : quelle solution choisir ?

Les deux solutions Cloud Dataproc et Cloud Dataflow peuvent être utilisées pour le traitement des données, et possèdent des capacités communes de traitement par flux et par lots. Comment déterminer quelle est la solution la mieux adaptée à votre environnement ?
Dataproc ou Dataflow

Cloud Dataproc

Cloud Dataproc est une bonne solution pour les environnements qui dépendent de composants spécifiques de l'écosystème big data Apache :

  • Outils/Packages
  • Pipelines
  • Compétences des ressources existantes

Cloud Dataflow

Cloud Dataflow est généralement la solution de choix pour les environnements complètement nouveaux :

  • Réduction des coûts opérationnels
  • Approche unifiée du développement de pipelines de traitement par flux ou par lots
  • Utilise Apache Beam
  • Portabilité des pipelines entre Cloud Dataflow, Apache Spark et Apache Flink en tant qu'environnements d'exécution

Charges de travail recommandées

CHARGES DE TRAVAIL CLOUD DATAPROC CLOUD DATAFLOW
Traitement par flux (ETL)
Traitement par lots (ETL)
Traitement itératif et blocs-notes
Machine learning avec Spark ML
Prétraitement pour le machine learning (avec Cloud ML Engine)

Partenariats et intégrations

Les partenaires et développeurs tiers de Google Cloud Platform ont mis au point des intégrations avec Dataflow pour effectuer rapidement et facilement des tâches de traitement de données de n'importe quelle taille.

ClearStory

Cloudera

DataArtisans

Sales Force

 

SpringML

tamr

"L'exécution de nos pipelines sur Cloud Dataflow nous permet de nous concentrer sur la programmation sans devoir nous soucier du déploiement ni de la maintenance des instances exécutant notre code (et c'est l'une des caractéristiques principales de GCP)."

– Jibran Saithi Architecte principal, Qubit

Tarifs avantageux

Les tâches Cloud Dataflow sont facturées par incréments d'une seconde, selon l'utilisation réelle des nœuds de calcul Cloud Dataflow par flux ou par lot. Les tâches consommant des ressources GCP supplémentaires, telles que Cloud Storage ou Cloud Pub/Sub, sont facturées individuellement, selon la grille tarifaire de ces services.

Iowa (us-central1) Los Angeles (us-west2) Oregon (us-west1) Virginie du Nord (us-east4) Caroline du Sud (us-east1) Montréal (northamerica-northeast1) São Paulo (southamerica-east1) Belgique (europe-west1) Francfort (europe-west3) Londres (europe-west2) Pays-Bas (europe-west4) Zurich (europe-west6) Mumbai (asia-south1) Singapour (asia-southeast1) Sydney (australia-southeast1) Hong Kong (asia-east2) Taïwan (asia-east1) Tokyo (asia-northeast1) Osaka (asia-northeast2)
Type de nœud de calcul Cloud Dataflow Processeur virtuel
$/h
Mémoire
$ Go/h
Espace de stockage – Disque persistant standard
$ Go/h
Espace de stockage – Disque persistant SSD
$ Go/h
Données traitées4,5
$ Go6
Lot 1
FlexRS 2
Flux 3
Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page relative aux SKU de Cloud Platform s'appliquent.

1 Valeurs par défaut d'un nœud de calcul par lots : 1 processeur virtuel, 3,75 Go de mémoire, disque persistant de 250 Go

2 Valeurs par défaut d'un nœud de calcul FlexRS : 2 processeurs virtuels, 7,50 Go de mémoire, disque persistant de 25 Go par nœud de calcul, avec 2 nœuds de calcul au minimum

3 Valeurs par défaut d'un nœud de calcul par flux : 4 processeurs virtuels, 15 Go de mémoire, disque persistant de 420 Go

4 Cloud Dataflow Shuffle est actuellement disponible pour les pipelines de traitement par lots dans les régions suivantes :

  • us-central1 (Iowa)
  • europe-west1 (Belgique)
  • europe-west4 (Pays-Bas)
  • asia-northeast1 (Tokyo)

D'autres régions seront ajoutées ultérieurement.

5 Cloud Dataflow Streaming Engine utilise l'unité de tarification Flux de données traités. Cette fonctionnalité est actuellement disponible dans les régions suivantes :

  • us-central1 (Iowa)
  • europe-west1 (Belgique)
  • europe-west4 (Pays-Bas)
  • asia-northeast1 (Tokyo)
D'autres régions seront ajoutées ultérieurement.

6 Pour en savoir plus sur les données traitées, consultez la page Tarifs de Cloud Dataflow.

Les produits Cloud AI sont conformes aux règles du Contrat de niveau de service répertoriées sur cette page. Ils peuvent présenter des latences ou des garanties de disponibilité différentes de celles d'autres services Google Cloud.

Envoyer des commentaires concernant…

Besoin d'aide ? Consultez notre page d'assistance.