Tarifs de Dataflow

Cette page décrit la tarification de Dataflow. Pour les autres produits, consultez la documentation sur les tarifs.

Présentation de la tarification

Bien que le tarif soit calculé sur une base horaire, l'utilisation du service Dataflow est facturée par tranche d'une seconde, tâche par tâche. L'utilisation est indiquée en heures (par exemple, 30 minutes correspondent à 0,5 heure) afin d'appliquer un tarif horaire à l'utilisation à la seconde près. Les nœuds de calcul et les tâches peuvent consommer des ressources, tel que décrit dans les sections suivantes.

Ressources de calcul et nœuds de calcul

Chaque tâche Dataflow utilise au moins un nœud de calcul Dataflow. Le service Dataflow fournit deux types de nœuds de calcul : par lot et par flux. Les frais de service pour les nœuds de calcul par flux et par lot sont calculés différemment.

Les nœuds de calcul Dataflow consomment les ressources suivantes, qui sont chacune facturées à la seconde.

Les nœuds de calcul par lot et par flux sont des ressources spécialisées qui utilisent Compute Engine. Toutefois, une tâche Dataflow n'entraîne pas de frais Compute Engine pour les ressources Compute Engine gérées par le service Dataflow. En revanche, les tarifs du service Dataflow couvrent l'utilisation de ces ressources Compute Engine.

Vous pouvez remplacer le nombre de nœuds de calcul par défaut pour une tâche. Si vous utilisez l'autoscaling, vous pouvez spécifier le nombre maximal de nœuds de calcul à allouer à une tâche. Les nœuds de calcul et les ressources associées seront ajoutés et supprimés automatiquement en fonction de l'activation de l'autoscaling.

En outre, vous pouvez utiliser les options de pipeline pour remplacer les paramètres par défaut des ressources (type de machine, type et taille du disque) allouées à chaque nœud de calcul.

Services Dataflow

L'opération Dataflow Shuffle permet de partitionner et de regrouper les données par clé de manière évolutive et efficace tout en bénéficiant d'une tolérance aux pannes. Par défaut, la fonctionnalité de brassage des données dans Dataflow s'exécute entièrement à l'aide de machines virtuelles de calcul et consomme des ressources telles qu'un processeur de calcul, de la mémoire et de l'espace de stockage sur disque persistant.

Dataflow propose également la fonctionnalité Dataflow Shuffle hautement évolutive en option (disponible uniquement pour les pipelines par lot), qui permet de brasser les données en dehors des nœuds de calcul. Shuffle est facturé selon le volume de données traitées. Pour activer le service Shuffle dans Dataflow, spécifiez le paramètre Shuffle dans vos pipelines.

Semblable à Shuffle, Dataflow Streaming Engine déplace le traitement du brassage et de l'état des flux de données depuis les VM de nœud de calcul vers le backend du service Dataflow. Spécifiez le paramètre de pipeline Streaming Engine afin de demander à Dataflow d'utiliser Streaming Engine pour vos pipelines de traitement par flux. L'utilisation de Streaming Engine est facturée en fonction du volume de données par flux traitées, qui dépend du volume de données ingérées dans votre pipeline de traitement par flux, ainsi que de la complexité et du nombre d'étapes de pipeline. Par exemple, les flux d'entrée à partir des sources de données, les flux de données d'une étape fusionnée du pipeline à une autre, les flux de données conservés dans un état défini par l'utilisateur ou utilisés pour le fenêtrage, et les messages de sortie vers des récepteurs de données comme Pub/Sub ou BigQuery comptent tous comme des octets traités.

Dataflow propose également une option avec des prix réduits pour le processeur et la mémoire dans le cadre du traitement par lot. La planification flexible des ressources (FlexRS) regroupe des VM classiques et préemptives dans un seul pool de nœuds de calcul Dataflow, ce qui permet aux utilisateurs d'accéder à des ressources de traitement moins coûteuses. FlexRS peut également retarder l'exécution d'une tâche par lot Dataflow dans un intervalle de temps de six heures, afin de déterminer le meilleur moment pour démarrer la tâche en fonction des ressources disponibles. Lorsque Dataflow utilise une combinaison de nœuds de calcul pour exécuter une tâche FlexRS, vous êtes facturé à un tarif réduit uniforme comparé aux prix ordinaires de Dataflow, quel que soit le type de nœud de calcul. Pour demander à Dataflow d'utiliser FlexRS pour vos pipelines par lot avec autoscaling, vous devez spécifier le paramètre FlexRS.

Autres ressources relatives aux tâches

En plus de l'utilisation des ressources de nœuds de calcul, une tâche peut consommer les ressources suivantes, chacune faisant l'objet d'une facturation spécifique, y compris, mais sans s'y limiter :

Détail des tarifs

Les futures versions de Dataflow peuvent présenter des tarifs différents et/ou d'autres types de regroupement de services connexes.

Pour en savoir plus sur les régions disponibles et leurs zones, consultez la page Régions et zones de Compute Engine.

1 Valeurs par défaut d'un nœud de calcul par lot : 1 processeur virtuel, 3,75 Go de mémoire, disque persistant de 250 Go

2 Valeurs par défaut d'un nœud de calcul FlexRS : 2 processeurs virtuels, 7,50 Go de mémoire, disque persistant de 25 Go par nœud de calcul, avec 2 nœuds de calcul au minimum

3 Valeurs par défaut d'un nœud de calcul par flux : 4 processeurs virtuels, 15 Go de mémoire, disque persistant de 420 Go

4 Dataflow Shuffle est actuellement disponible pour les pipelines de traitement par lot dans les régions suivantes :

  • us-west1 (Oregon)
  • us-central1 (Iowa)
  • us-east1 (Caroline du Sud)
  • us-east4 (Virginie du Nord)
  • northamerica-northeast1 (Montréal)
  • europe-west2 (Londres)
  • europe-west1 (Belgique)
  • europe-west4 (Pays-Bas)
  • europe-west3 (Francfort)
  • asia-southeast1 (Singapour)
  • asia-east1 (Taïwan)
  • asia-northeast1 (Tokyo)
  • australia-southeast1 (Sydney)

D'autres régions seront ajoutées ultérieurement.

Les tarifs de Dataflow Shuffle reposent sur les ajustements de volume appliqués à la quantité de données traitées au cours des opérations de lecture et d'écriture lors du brassage de votre ensemble de données. Pour en savoir plus, consultez la section Détails des tarifs de Dataflow Shuffle.

5 Dataflow Streaming Engine utilise l'unité de tarification "Données par flux traitées". Cette fonctionnalité est actuellement disponible dans les régions suivantes :

  • us-west1 (Oregon)
  • us-central1 (Iowa)
  • us-east1 (Caroline du Sud)
  • us-east4 (Virginie du Nord)
  • northamerica-northeast1 (Montréal)
  • europe-west2 (Londres)
  • europe-west1 (Belgique)
  • europe-west4 (Pays-Bas)
  • europe-west3 (Francfort)
  • asia-southeast1 (Singapour)
  • asia-east1 (Taïwan)
  • asia-northeast1 (Tokyo)
  • australia-southeast1 (Sydney)
D'autres régions seront ajoutées ultérieurement.

Détails des tarifs de Dataflow Shuffle

Les frais sont calculés pour chaque tâche Dataflow, par le biais d'ajustements de volume appliqués à la quantité totale de données traitées lors des opérations Dataflow Shuffle. Votre facture réelle liée aux données traitées par Dataflow Shuffle correspond à un volume de données plus faible (et à plein tarif) que le volume de données réellement traitées par une tâche Dataflow. La différence repose sur le fait que le volume facturable de données traitées par Dataflow Shuffle est inférieur au volume total de données traitées par Dataflow Shuffle.

Vous trouverez les explications sur ces ajustements dans le tableau suivant :

Données traitées par une tâche Ajustement de facturation
250 premiers Go Réduction de 75 %
4 870 Go suivants Réduction de 50 %
Données restantes au-delà de 5 120 Go (5 To) aucun

Ainsi, si votre pipeline génère 1 024 Go (1 To) de données traitées par Dataflow Shuffle, le montant facturable est calculé comme suit : 250 Go x 25 % + 774 Go x 50 % = 449,5 Go x le taux de traitement de données Dataflow Shuffle régional. Si votre pipeline génère 10 240 Go (10 To) de données traitées par Dataflow Shuffle, le montant facturable est calculé comme suit : 250 Go x 25 % + 4 870 Go x 50 % + 5 120 Go = 7 617,5 Go.

Consulter les informations sur l'utilisation

Toutes les données sur l'utilisation des ressources de type processeur virtuel, mémoire et disque persistant associées à une tâche sont disponibles dans Google Cloud Console ou via l'outil de ligne de commande gcloud. L'interface de surveillance de Dataflow vous permet de consulter les métriques concernant les données traitées par Shuffle et par flux. Elle indique les données réellement traitées et les données facturables. Vous pouvez utiliser les métriques relatives aux données réellement traitées par Shuffle pour évaluer les performances de votre pipeline. Quant aux métriques relatives aux données facturables, elles vous permettent de déterminer les coûts d'une tâche Dataflow. Pour les données par flux traitées, les métriques relatives aux données réellement traitées et aux données facturables sont les mêmes.

Simulateur de coût

Le simulateur de coût Google Cloud vous permet de comprendre les modalités de calcul de votre facture.