Tarifs de Dataflow

Cette page décrit la tarification de Dataflow. Pour les autres produits, consultez la documentation sur les tarifs.

Présentation de la tarification

Bien que le tarif soit calculé sur une base horaire, l'utilisation du service Dataflow est facturée par tranche d'une seconde, tâche par tâche. L'utilisation est indiquée en heures (par exemple, 30 minutes correspondent à 0,5 heure) afin d'appliquer un tarif horaire à l'utilisation à la seconde près. Les nœuds de calcul et les tâches peuvent consommer des ressources, tel que décrit dans les sections suivantes.

Ressources de calcul et nœuds de calcul

Chaque tâche Dataflow utilise au moins un nœud de calcul Dataflow. Le service Dataflow fournit deux types de nœuds de calcul : par lot et par flux. Les frais de service pour les nœuds de calcul par flux et par lot sont calculés différemment.

Les nœuds de calcul Dataflow consomment les ressources suivantes, qui sont chacune facturées à la seconde.

  • Processeur virtuel
  • Mémoire
  • Espace de stockage : disque persistant
  • GPU (facultatif)

Les nœuds de calcul par lot et par flux sont des ressources spécialisées qui utilisent Compute Engine. Toutefois, une tâche Dataflow n'entraîne pas de frais Compute Engine pour les ressources Compute Engine gérées par le service Dataflow. En revanche, les tarifs du service Dataflow couvrent l'utilisation de ces ressources Compute Engine.

Vous pouvez remplacer le nombre de nœuds de calcul par défaut pour une tâche. Si vous utilisez l'autoscaling, vous pouvez spécifier le nombre maximal de nœuds de calcul à allouer à une tâche. Les nœuds de calcul et les ressources associées seront ajoutés et supprimés automatiquement en fonction de l'activation de l'autoscaling.

En outre, vous pouvez utiliser les options de pipeline pour remplacer les paramètres par défaut des ressources (type de machine, type et taille du disque) allouées à chaque nœud de calcul et utiliser des GPU.

Services Dataflow

L'opération Dataflow Shuffle permet de partitionner et de regrouper les données par clé de manière évolutive et efficace tout en bénéficiant d'une tolérance aux pannes. Par défaut, la fonctionnalité de brassage des données dans Dataflow s'exécute entièrement à l'aide de machines virtuelles de calcul et consomme des ressources telles qu'un processeur de calcul, de la mémoire et de l'espace de stockage sur disque persistant.

Dataflow propose également la fonctionnalité Dataflow Shuffle hautement évolutive en option (disponible uniquement pour les pipelines par lot), qui permet de brasser les données en dehors des nœuds de calcul. Shuffle est facturé selon le volume de données traitées. Pour activer le service Shuffle dans Dataflow, spécifiez le paramètre Shuffle dans vos pipelines.

Semblable à Shuffle, Dataflow Streaming Engine déplace le traitement du brassage et de l'état des flux de données depuis les VM de nœud de calcul vers le backend du service Dataflow. Spécifiez le paramètre de pipeline Streaming Engine afin de demander à Dataflow d'utiliser Streaming Engine pour vos pipelines de traitement par flux. L'utilisation de Streaming Engine est facturée en fonction du volume de données par flux traitées, qui dépend du volume de données ingérées dans votre pipeline de traitement par flux, ainsi que de la complexité et du nombre d'étapes de pipeline. Par exemple, les flux d'entrée à partir des sources de données, les flux de données d'une étape fusionnée du pipeline à une autre, les flux de données conservés dans un état défini par l'utilisateur ou utilisés pour le fenêtrage, et les messages de sortie vers des récepteurs de données comme Pub/Sub ou BigQuery comptent tous comme des octets traités.

Dataflow propose également une option avec des prix réduits pour le processeur et la mémoire dans le cadre du traitement par lot. La planification flexible des ressources (FlexRS) regroupe des VM classiques et préemptives dans un seul pool de nœuds de calcul Dataflow, ce qui permet aux utilisateurs d'accéder à des ressources de traitement moins coûteuses. FlexRS peut également retarder l'exécution d'une tâche par lot Dataflow dans un intervalle de temps de six heures, afin de déterminer le meilleur moment pour démarrer la tâche en fonction des ressources disponibles. Lorsque Dataflow utilise une combinaison de nœuds de calcul pour exécuter une tâche FlexRS, vous êtes facturé à un tarif réduit uniforme comparé aux prix ordinaires de Dataflow, quel que soit le type de nœud de calcul. Pour demander à Dataflow d'utiliser FlexRS pour vos pipelines par lot avec autoscaling, vous devez spécifier le paramètre FlexRS.

Pour vous aider à gérer la fiabilité de vos pipelines de streaming, les instantanés Dataflow vous permettent d'enregistrer et de restaurer l'état de votre pipeline. L'utilisation de l'instantané est facturée en fonction du volume de données stockées, qui dépend du volume de données ingérées dans votre pipeline de traitement par flux, de votre logique de fenêtrage et du nombre d'étapes de pipeline. Vous pouvez prendre un instantané de votre tâche par flux à l'aide de l'interface utilisateur Web ou de l'outil de ligne de commande gcloud de Dataflow. La création d'une tâche à partir de votre instantané n'entraîne aucuns frais supplémentaires pour restaurer l'état du pipeline. Pour en savoir plus, consultez la page Utiliser des instantanés Dataflow.

Dataflow Prime

Dataflow Prime est une nouvelle plate-forme de traitement des données qui s'appuie sur Dataflow et qui permet d'améliorer l'utilisation des ressources, ainsi que les diagnostics distribués.

Les tarifs d'une tâche exécutant Dataflow Prime sont calculés en fonction du nombre d'unités de traitement Dataflow qu'elle utilise. Les DPU représentent les ressources de calcul allouées à l'exécution de votre pipeline.

Qu'est-ce qu'une unité de traitement Dataflow ?

Une unité de traitement Dataflow (DPU) est une unité de mesure de l'utilisation de Dataflow qui suit la quantité de ressources consommées par vos tâches. Les DPU suivent l'utilisation de différentes ressources, y compris les ressources de calcul, la mémoire, le stockage sur disque, les données brassées (pour les tâches de traitement par lot) et les données par flux traitées (pour les tâches de traitement par flux). L'utilisation des ressources DPU sera plus élevée pour les tâches qui consomment plus de ressources. Bien qu'il n'y ait pas de mappage "un pour un" entre les différentes ressources utilisées par votre tâche et les DPU, une DPU est comparable aux ressources utilisées par une tâche Dataflow exécutée pendant une heure sur un nœud de calcul de 1 processeur virtuel et de 4 Go, avec un disque persistant de 250 Go.

Comment optimiser le nombre d'unités de traitement Dataflow utilisées par ma tâche ?

Vous ne pouvez pas définir le nombre de DPU pour vos tâches. Les DPU sont comptabilisées par Dataflow Prime. Toutefois, vous pouvez réduire le nombre de DPU utilisées en vous concentrant sur les aspects suivants de votre tâche :

  • Réduction de la consommation de mémoire
  • Réduction de la quantité de données traitées lors des étapes de brassage à l'aide de filtres, de combinaisons et de codeurs efficaces

Vous pouvez identifier ces optimisations à l'aide de l'interface de surveillance de Dataflow et des détails de l'exécution.

Comment les unités de traitement Dataflow sont-elles facturées ?

Le nombre total de DPU utilisées par votre tâche pendant une heure donnée vous est facturé à la seconde. Le prix d'une seule DPU varie en fonction du type de tâche (par lot ou par flux).

Comment puis-je limiter le nombre d'unités de traitement Dataflow utilisées par ma tâche ?

Le nombre total de DPU que votre tâche peut utiliser dépend de son nombre maximal de ressources. Vous pouvez également définir le nombre maximal de nœuds de calcul pour votre tâche, ce qui limite le nombre de DPU qu'elle peut utiliser.

En quoi la tarification de Dataflow Prime diffère-t-elle du modèle de tarification de Dataflow ?

Dans le modèle Dataflow, les ressources disparates utilisées par vos tâches vous sont facturées : processeurs virtuels, mémoire, stockage et quantité de données traitées par Dataflow Shuffle ou Streaming Engine.

Les unités de traitement Dataflow regroupent ces ressources en une seule unité de mesure. Vous êtes ensuite facturé pour le nombre de DPU consommés en fonction du type de tâche (par lot ou par flux). Le découplage des DPU des ressources physiques facilite la comparaison des coûts entre les tâches et le suivi de l'utilisation de Dataflow au fil du temps. Pour en savoir plus, consultez la page Utiliser Dataflow Prime.

Que deviendront mes tâches existantes qui utilisent le modèle de tarification Dataflow ?

Vos tâches par lot et par flux existantes continueront d'être facturées selon le modèle Dataflow. Lorsque vous mettrez à jour vos tâches pour qu'elles utilisent Dataflow Prime, celles-ci seront facturées pour les DPU utilisées.

Autres ressources relatives aux tâches

En plus de l'utilisation des ressources de nœuds de calcul, une tâche peut consommer les ressources suivantes, chacune faisant l'objet d'une facturation spécifique, y compris, mais sans s'y limiter :

Détail des tarifs

Les futures versions de Dataflow peuvent présenter des tarifs différents et/ou d'autres types de regroupement de services connexes.

Consultez la page Régions et zones de Compute Engine pour en savoir plus sur les régions disponibles et leurs zones.

Tarifs des ressources de nœuds de calcul

Tarifs des autres ressources

Les ressources suivantes sont facturées au même tarif pour les tâches de traitement par flux, par lot et FlexRS.

1 Valeurs par défaut d'un nœud de calcul par lot : 1 processeur virtuel, 3,75 Go de mémoire, disque persistant de 250 Go

2 Valeurs par défaut d'un nœud de calcul FlexRS : 2 processeurs virtuels, 7,50 Go de mémoire, disque persistant de 25 Go par nœud de calcul, avec 2 nœuds de calcul au minimum

3 Valeurs par défaut d'un nœud de calcul par flux : 4 processeurs virtuels, 15 Go de mémoire, disque persistant de 400 Go

4Cette fonctionnalité est disponible dans toutes les régions où Dataflow est disponible. Pour afficher les emplacements disponibles, consultez la page Emplacements Dataflow.

Les tarifs de Dataflow Shuffle reposent sur les ajustements de volume appliqués à la quantité de données traitées au cours des opérations de lecture et d'écriture lors du brassage de votre ensemble de données. Pour en savoir plus, consultez la section Détails des tarifs de Dataflow Shuffle.

Cette fonctionnalité est disponible dans toutes les régions où Dataflow est disponible. Pour afficher les emplacements disponibles, consultez la page Emplacements Dataflow.

Détails des tarifs de Dataflow Shuffle

Les frais sont calculés pour chaque tâche Dataflow, par le biais d'ajustements de volume appliqués à la quantité totale de données traitées lors des opérations Dataflow Shuffle. Votre facture réelle liée aux données traitées par Dataflow Shuffle correspond à un volume de données plus faible (et à plein tarif) que le volume de données réellement traitées par une tâche Dataflow. La différence repose sur le fait que le volume facturable de données traitées par Dataflow Shuffle est inférieur au volume total de données traitées par Dataflow Shuffle.

Vous trouverez les explications sur ces ajustements dans le tableau suivant :

Données traitées par une tâche Ajustement de facturation
250 premiers Go Réduction de 75 %
4 870 Go suivants Réduction de 50 %
Données restantes au-delà de 5 120 Go (5 To) aucun

Ainsi, si votre pipeline génère 1 024 Go (1 To) de données traitées par Dataflow Shuffle, le montant facturable est calculé comme suit : 250 Go x 25 % + 774 Go x 50 % = 449,5 Go x le taux de traitement de données Dataflow Shuffle régional. Si votre pipeline génère 10 240 Go (10 To) de données traitées par Dataflow Shuffle, le montant facturable est calculé comme suit : 250 Go x 25 % + 4 870 Go x 50 % + 5 120 Go = 7 617,5 Go.

Tarifs applicables aux instantanés

Les instantanés Dataflow seront disponibles dans d'autres régions lors de leur disponibilité générale.

Consulter les informations sur l'utilisation

Toutes les données sur l'utilisation des ressources de type processeur virtuel, mémoire et disque persistant associées à une tâche sont disponibles dans Google Cloud Console ou via l'outil de ligne de commande gcloud. L'interface de surveillance de Dataflow vous permet de consulter les métriques concernant les données traitées par Shuffle et par flux. Elle indique les données réellement traitées et les données facturables. Vous pouvez utiliser les métriques relatives aux données réellement traitées par Shuffle pour évaluer les performances de votre pipeline. Quant aux métriques relatives aux données facturables, elles vous permettent de déterminer les coûts d'une tâche Dataflow. Pour les données par flux traitées, les métriques relatives aux données réellement traitées et aux données facturables sont les mêmes.

Simulateur de coût

Le simulateur de coût Google Cloud vous permet de comprendre les modalités de calcul de votre facture.

Étape suivante

Demander un devis personnalisé

Avec le paiement à l'usage de Google Cloud, vous ne payez que pour les services que vous utilisez. Contactez notre équipe commerciale pour obtenir un devis personnalisé pour votre entreprise.
Contacter le service commercial