Tarifs de Dataflow

Cette page décrit la tarification de Dataflow. Pour les autres produits, consultez la documentation sur les tarifs.

Pour découvrir comment économiser 40% avec un engagement de trois ans ou 20% avec un engagement d'un an, consultez la page Remises sur engagement d'utilisation.

Présentation

L'utilisation de Dataflow est facturée pour les ressources utilisées par vos jobs. Selon le modèle de tarification que vous utilisez, les ressources sont mesurées et facturées différemment.

Ressources de calcul Dataflow	Ressources de calcul Dataflow Prime
Processeur et mémoire de nœud de calcul (lot, flux et FlexRS) Données traitées par Dataflow Shuffle (par lot et FlexRS) Unités de calcul Streaming Engine ou anciennes données Streaming Engine traitées (flux uniquement)	Unités de calcul de données (DCU) (par lot et par flux)

Les autres ressources Dataflow facturées pour l'ensemble des tâches incluent le disque persistant, les GPU et les instantanés.

Les ressources d'autres services peuvent être utilisées pour le job Dataflow. Les services utilisés avec Dataflow peuvent inclure BigQuery, Pub/Sub, Cloud Storage et Cloud Logging, entre autres.

Bien que le tarif soit calculé sur une base horaire, l'utilisation de Dataflow est facturée par incréments d'une seconde, tâche par tâche. L'utilisation est indiquée en heures afin d'appliquer un tarif horaire à l'utilisation à la seconde près. Par exemple, 30 minutes correspondent à 0,5 heure. Les nœuds de calcul et les tâches peuvent consommer des ressources, comme décrit dans les sections suivantes.

Les futures versions de Dataflow pourront présenter des frais de service différents ou des offres groupées de services connexes.

Ressources de calcul Dataflow

La facturation de Dataflow pour les ressources de calcul comprend les composants suivants:

Processeur et mémoire des nœuds de calcul
Données Dataflow Shuffle traitées pour les charges de travail par lot
Unités de calcul Streaming Engine
Données traitées par Streaming Engine

Pour en savoir plus sur les régions disponibles et leurs zones, consultez la page Régions et zones de Compute Engine.

Processeur et mémoire des nœuds de calcul

Chaque tâche Dataflow utilise au moins un nœud de calcul Dataflow. Le service Dataflow fournit deux types de nœuds de calcul : par lot et par flux. Les frais de service des nœuds de calcul par lot et par flux sont distincts.

Les nœuds de calcul Dataflow consomment les ressources suivantes, qui sont chacune facturées à la seconde:

CPU
Mémoire

Les nœuds de calcul par lot et par flux sont des ressources spécialisées qui utilisent Compute Engine. Toutefois, une tâche Dataflow n'entraîne pas de frais Compute Engine pour les ressources Compute Engine gérées par le service Dataflow. En revanche, les tarifs du service Dataflow incluent l'utilisation de ces ressources Compute Engine.

Vous pouvez remplacer le nombre de nœuds de calcul par défaut pour une tâche. Si vous utilisez l'autoscaling, vous pouvez spécifier le nombre maximal de nœuds de calcul à allouer à une tâche. Les nœuds de calcul et les ressources associées sont ajoutés et supprimés automatiquement en fonction de l'activation de l'autoscaling.

En outre, vous pouvez utiliser les options de pipeline pour remplacer les paramètres de ressources par défaut, tels que le type de machine, le type et la taille du disque, qui sont alloués à chaque nœud de calcul et qui utilisent des GPU.

FlexRS

Dataflow propose une option avec des tarifs réduits pour le processeur et la mémoire dans le cadre du traitement par lot. La planification flexible des ressources (FlexRS) regroupe des VM classiques et préemptives dans un seul pool de nœuds de calcul Dataflow, ce qui permet aux utilisateurs d'accéder à des ressources de traitement moins coûteuses. FlexRS peut également retarder l'exécution d'une tâche par lot Dataflow dans un intervalle de temps de six heures, afin de déterminer le meilleur moment pour démarrer la tâche en fonction des ressources disponibles.

Bien que Dataflow utilise une combinaison de nœuds de calcul pour exécuter une tâche FlexRS, vous êtes facturé un tarif réduit uniforme d'environ 40% sur les coûts de processeur et de mémoire par rapport aux tarifs standards de Dataflow, quel que soit le type de nœud de calcul. Pour demander à Dataflow d'utiliser FlexRS pour vos pipelines par lot avec autoscaling, vous devez spécifier le paramètre FlexRS.

Données Dataflow Shuffle traitées

Pour les pipelines de traitement par lot, Dataflow propose une fonctionnalité hautement évolutive, Dataflow Shuffle, qui brasse les données en dehors des nœuds de calcul. Pour en savoir plus, consultez la page Dataflow Shuffle.

Dataflow Shuffle est facturé en fonction du volume de données traitées lors du brassage.

Tarifs de Streaming Engine

Pour les pipelines de flux de données, Dataflow Streaming Engine déplace le traitement du brassage et de l'état des flux depuis les VM de nœud de calcul vers le backend du service Dataflow. Pour en savoir plus, consultez la page Streaming Engine.

Unités de calcul Streaming Engine

Avec la facturation basée sur les ressources, les ressources Streaming Engine sont mesurées en unités de calcul Streaming Engine. Dataflow mesure les ressources Streaming Engine utilisées par chaque tâche, puis facture en fonction du nombre total de ressources utilisées par cette tâche. Pour activer la facturation basée sur les ressources pour votre tâche, consultez la section Utiliser la facturation basée sur les ressources. Lorsque vous utilisez la facturation basée sur les ressources, les remises existantes sont automatiquement appliquées.

Lorsque vous utilisez Dataflow Prime avec une facturation basée sur les ressources, vous êtes facturé sur la base du nombre total de ressources utilisées par chaque job, mais le SKU Data Compute Unit (DCU) est utilisé à la place du SKU Streaming Engine Compute Unit.

Données traitées par Streaming Engine (ancienne version)

Dataflow continue à gérer l'ancien mode de facturation du traitement des données. À moins que vous n'activiez la facturation basée sur les ressources, les tâches sont facturées selon la facturation traitée par les données.

La facturation du traitement des données par flux Engine mesure l'utilisation en fonction du volume de données traitées par flux, qui dépend des facteurs suivants:

Le volume de données ingérées dans votre pipeline de flux de données
La complexité du pipeline
Nombre d'étapes du pipeline avec une opération de brassage ou avec des fonctions avec état.

Voici quelques exemples de ce qui compte comme un octet traité:

Flux d'entrée à partir de sources de données
Flux de données entre deux étapes fusionnées du pipeline
Flux de données conservées à l'état défini par l'utilisateur ou utilisées pour le fenêtrage
Envoyer des messages vers des récepteurs de données (dans Pub/Sub ou BigQuery, par exemple)

Tarifs des ressources de calcul Dataflow : lots et FlexRS

Le tableau suivant contient le détail des tarifs des ressources de nœuds de calcul et des données Shuffle traitées pour les jobs par lot et FlexRS.

¹ Valeurs par défaut d'un nœud de calcul par lot: 1 processeur virtuel, 3,75 Go de mémoire, disque persistant de 250 Go si vous n'utilisez pas Dataflow Shuffle, disque persistant de 25 Go si vous utilisez Dataflow Shuffle

² Valeurs par défaut d'un nœud de calcul FlexRS : 2 processeurs virtuels, 7,50 Go de mémoire, disque persistant de 25 Go par nœud de calcul, avec 2 nœuds de calcul au minimum

Tarifs des ressources de calcul Dataflow (flux de données)

Le tableau suivant contient le détail des tarifs des ressources de calcul, des données traitées par Streaming Engine (anciennes) et des unités de calcul Streaming Engine pour les tâches par flux.

Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des SKU Cloud Platform s'appliquent.

³ Valeurs par défaut d'un nœud de calcul par flux: 4 processeurs virtuels, 15 Go de mémoire, disque persistant de 400 Go si vous n'utilisez pas Streaming Engine, disque persistant de 30 Go si vous utilisez Streaming Engine Le service Dataflow est actuellement limité à 15 disques persistants par instance de nœud de calcul lors de l'exécution d'une tâche en flux continu. L'allocation minimale de ressources est un ratio de 1:1 entre les nœuds de calcul et les disques.

⁴ Les tarifs de Dataflow Shuffle sont basés sur les ajustements de volume appliqués à la quantité de données traitées lors des opérations de lecture et d'écriture lors du brassage de votre ensemble de données. Pour en savoir plus, consultez la page Détail des tarifs de Dataflow Shuffle. Les tarifs de Dataflow Shuffle ne s'appliquent pas aux tâches Streaming Engine qui utilisent la facturation basée sur les ressources.

⁵ Unités de calcul Streaming Engine: pour les tâches de traitement par flux qui utilisent Streaming Engine et le modèle de facturation basé sur les ressources Ces jobs ne sont pas facturés pour les données traitées lors du brassage.

Ajustements du volume pour les données traitées par Dataflow Shuffle

Les frais sont calculés par tâche Dataflow via des ajustements de volume appliqués à la quantité totale de données traitées lors des opérations Dataflow Shuffle. Votre facture réelle liée aux données traitées par Dataflow Shuffle correspond à un volume de données plus faible (et à plein tarif) que le volume de données réellement traitées par une tâche Dataflow. En raison de cette différence, la métrique Données de brassage facturables traitées est inférieure à la métrique Nombre total de données de brassage traitées.

Vous trouverez les explications sur ces ajustements dans le tableau suivant :

Données Dataflow Shuffle traitées	Ajustement de facturation
250 premiers Go	Réduction de 75 %
4 870 Go suivants	Réduction de 50 %
Données restantes au-delà de 5 120 Go (5 To)	aucun

Par exemple, si votre pipeline génère 1 024 Go (1 To) de données Dataflow Shuffle traitées, le montant facturable est calculé comme suit:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Si votre pipeline génère 10 240 Go (10 To) de données Dataflow Shuffle traitées, la quantité de données facturable est la suivante:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Tarifs des ressources de calcul Dataflow Prime

Dataflow Prime est une plate-forme de traitement des données qui s'appuie sur Dataflow pour améliorer l'utilisation des ressources, ainsi que les diagnostics distribués.

Les ressources de calcul utilisées par un job Dataflow Prime sont facturées en fonction du nombre d'unités de calcul de données (DCU). Les DCU représentent les ressources de calcul allouées à l'exécution de votre pipeline. Les autres ressources Dataflow utilisées par les tâches Dataflow Prime, telles que le disque persistant, les GPU et les instantanés, sont facturées séparément.

Pour en savoir plus sur les régions disponibles et leurs zones, consultez la page Régions et zones de Compute Engine.

Unité de calcul des données

Une unité de calcul de données (DCU, Data Compute Unit) est une unité de mesure de l'utilisation de Dataflow qui suit le nombre de ressources de calcul consommées par vos tâches. Les ressources suivies par les unités de calcul de données incluent les processeurs virtuels, la mémoire, les données traitées par Dataflow Shuffle (pour les tâches par lot) et les données Streaming Engine traitées (pour les tâches par flux). Les tâches qui consomment plus de ressources utilisent davantage les unités de calcul de données que celles qui consomment moins de ressources. Une DCU est comparable aux ressources utilisées par un job Dataflow exécuté pendant une heure sur un nœud de calcul doté d'un processeur virtuel et de 4 Go.

Facturation des unités de calcul de données

Vous êtes facturé pour le nombre total d'unités de calcul de données consommées par votre job. Le prix d'une seule unité de calcul de données varie selon que vous disposez d'une tâche par lot ou par flux. Lorsque vous utilisez Dataflow Prime avec une facturation basée sur les ressources, vous êtes facturé en fonction du nombre total de ressources utilisées plutôt que du traitement des octets.

Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des SKU Cloud Platform s'appliquent.

Optimiser l'utilisation des unités de calcul de données

Vous ne pouvez pas définir le nombre de DCU pour vos jobs. Les unités de calcul de données sont comptabilisées par Dataflow Prime. Toutefois, vous pouvez réduire le nombre d'unités de calcul de données consommées en gérant les aspects suivants de votre tâche:

Réduire la consommation de mémoire
Réduire la quantité de données traitées lors des étapes de brassage à l'aide de filtres, de combinaisons et de codeurs efficaces

Pour identifier ces optimisations, utilisez l'interface de surveillance de Dataflow et l'interface d'informations sur l'exécution.

En quoi les tarifs de Dataflow Prime sont-ils différents des tarifs de Dataflow ?

Dans Dataflow, les ressources disparates utilisées par vos tâches vous sont facturées, telles que les processeurs virtuels, la mémoire, le disque persistant et la quantité de données traitées par Dataflow Shuffle ou Streaming Engine.

Les unités de calcul de données regroupent toutes les ressources en une seule unité de mesure, à l'exception du stockage. Les ressources de disque persistant et le nombre d'unités de calcul de données consommées vous sont facturés en fonction du type de tâche, du lot ou du streaming. Pour en savoir plus, consultez la page Utiliser Dataflow Prime.

Qu'advient-il de mes jobs existants qui utilisent le modèle de tarification Dataflow ?

Les tâches par lot et par flux existantes continuent d'être facturées à l'aide du modèle Dataflow. Lorsque vous mettez à jour vos tâches de sorte qu'elles utilisent Dataflow Prime, elles appliquent le modèle de tarification Dataflow Prime, qui est facturé pour les ressources de disque persistant et pour les unités de calcul de données utilisées.

Autres ressources Dataflow

Le stockage, les GPU, les instantanés et les autres ressources sont facturés de la même manière pour Dataflow et Dataflow Prime.

Tarifs des ressources de stockage

Les ressources de stockage sont facturées au même tarif pour les tâches par flux, par lot et FlexRS. Vous pouvez utiliser les options de pipeline pour modifier la taille ou le type de disque par défaut. Dataflow Prime facture le disque persistant séparément, en fonction des tarifs indiqués dans le tableau suivant.

Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des SKU Cloud Platform s'appliquent.

Le service Dataflow est actuellement limité à 15 disques persistants par instance de nœud de calcul lors de l'exécution d'une tâche en flux continu. Chaque disque persistant se trouve localement sur une machine virtuelle Compute Engine individuelle. Un ratio de 1:1 entre les nœuds de calcul et les disques représente l'allocation minimale de ressources.

Les tâches qui utilisent Streaming Engine utilisent des disques de démarrage de 30 Go. Les tâches utilisant Dataflow Shuffle utilisent des disques de démarrage de 25 Go. Pour les tâches qui n'utilisent pas ces offres, la taille par défaut de chaque disque persistant est de 250 Go en mode de traitement par lot et de 400 Go en mode de traitement par flux.

L'utilisation de Compute Engine est basée sur le nombre moyen de nœuds de calcul, tandis que l'utilisation de Persistent Disk est basée sur la valeur exacte de --maxNumWorkers. Les disques persistants sont redistribués de manière à ce que chaque nœud de calcul dispose d'un nombre égal de disques associés.

Tarifs des ressources GPU

Les ressources GPU sont facturées au même tarif pour les tâches par flux et par lot. FlexRS n'est actuellement pas compatible avec les GPU. Pour en savoir plus sur les régions et les zones disponibles pour les GPU, consultez la section Disponibilité des régions et zones des GPU dans la documentation Compute Engine.

Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des SKU Cloud Platform s'appliquent.

Instantanés

Pour vous aider à gérer la fiabilité de vos pipelines de traitement par flux, vous pouvez enregistrer et restaurer l'état de votre pipeline à l'aide d'instantanés. L'utilisation des instantanés est facturée en fonction du volume de données stockées, qui dépend des facteurs suivants:

Le volume de données ingérées dans votre pipeline de flux de données
Votre logique de fenêtrage
Le nombre d'étapes du pipeline

Vous pouvez prendre un instantané de votre tâche de streaming à l'aide de la console Dataflow ou de la Google Cloud CLI. La création d'une tâche à partir de votre instantané n'entraîne aucuns frais supplémentaires pour restaurer l'état du pipeline. Pour en savoir plus, consultez la page Utiliser des instantanés Dataflow.

Tarifs des instantanés

Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des SKU Cloud Platform s'appliquent.

Confidential VM

Confidential VMs pour Dataflow chiffre les données utilisées sur les VM Compute Engine de nœud de calcul. Pour en savoir plus, consultez la page Concepts d'informatique confidentielle.

L'utilisation de Confidential VMs pour Dataflow entraîne des coûts forfaitaires supplémentaires par vCPU et par Go.

Tarifs de Confidential VM

Les tarifs s'appliquent pour le monde entier et ne changent pas en fonction de la région Google Cloud.

Ressources autres que Dataflow

En plus de l'utilisation de Dataflow, un job peut consommer les ressources suivantes, chacune faisant l'objet d'une facturation spécifique, y compris, mais sans s'y limiter:

Cloud Storage

Les tâches Dataflow utilisent Cloud Storage pour stocker des fichiers temporaires lors de l'exécution du pipeline. Pour éviter d'être facturé pour des coûts de stockage inutiles, désactivez la fonctionnalité de suppression réversible sur les buckets utilisés par vos jobs Dataflow pour le stockage temporaire. Pour en savoir plus, consultez la section Supprimer une règle de suppression réversible d'un bucket.
Pub/Sub
Datastore
Bigtable
BigQuery
VPC
Cloud Logging

Vous pouvez acheminer les journaux vers d'autres destinations ou les exclure de l'ingestion. Pour en savoir plus sur l'optimisation du volume de journaux pour vos tâches Dataflow, consultez la page Contrôler le volume de journaux Dataflow.

Afficher l'utilisation des ressources

Vous pouvez afficher la totalité des processeurs virtuels, de la mémoire et des ressources de disque persistant associés à une tâche dans le panneau Informations sur la tâche, sous Métriques de ressource. Vous pouvez suivre les métriques suivantes dans l'interface de surveillance de Dataflow:

Temps total de processeurs virtuels
Temps total d'utilisation de la mémoire
Durée totale d'utilisation de Persistent Disk
Volume total de flux de données traités
Total des données de brassage traitées
Données de brassage facturables traitées

Vous pouvez utiliser la métrique Nombre total de données de brassage traitées pour évaluer les performances de votre pipeline et la métrique Données de brassage facturables traitées pour déterminer les coûts du job Dataflow.

Pour Dataflow Prime, vous pouvez afficher le nombre total d'unités de calcul de données consommées par une tâche dans le panneau Informations sur la tâche, sous Métriques de ressource.

Simulateur de coût

Le simulateur de coût Google Cloud vous permet de comprendre les modalités de calcul de votre facture.

Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des SKU de Cloud Platform s'appliquent.

Étapes suivantes

Consultez la documentation Dataflow.
Premiers pas avec Dataflow.
Essayez le Simulateur de coût.
Découvrez les solutions et cas d'utilisation de Dataflow.

Demander un devis personnalisé

Avec le paiement à l'usage de Google Cloud, vous ne payez que pour les services que vous utilisez, Contactez notre équipe commerciale pour obtenir un devis personnalisé pour votre entreprise.

Contacter le service commercial