Tarifs de Dataflow

Cette page décrit la tarification de Dataflow. Pour les autres produits, consultez la documentation sur les tarifs.

Présentation de la tarification

Bien que le tarif soit calculé sur une base horaire, l'utilisation du service Dataflow est facturée par tranche d'une seconde, tâche par tâche. L'utilisation est indiquée en heures (par exemple, 30 minutes correspondent à 0,5 heure) afin d'appliquer un tarif horaire à l'utilisation à la seconde près. Les nœuds de calcul et les tâches peuvent consommer des ressources, tel que décrit dans les sections ci-après.

Ressources de calcul et nœuds de calcul

Chaque tâche Dataflow utilise au moins un nœud de calcul Dataflow. Le service Dataflow fournit deux types de nœuds de calcul : par lot et par flux. Les frais de service liés aux nœuds de calcul par flux et par lot sont calculés séparément.

Les nœuds de calcul Dataflow consomment les ressources ci-dessous, qui sont chacune facturées à la seconde.

Les nœuds de calcul par lot et par flux sont des ressources spécialisées qui utilisent Compute Engine. Toutefois, une tâche Dataflow n'entraîne pas de frais Compute Engine pour les ressources Compute Engine gérées par le service Dataflow. Les tarifs du service Dataflow couvrent l'utilisation de ces ressources Compute Engine.

Vous pouvez remplacer le nombre de nœuds de calcul par défaut pour une tâche. Si vous utilisez l'autoscaling, vous pouvez spécifier le nombre maximal de nœuds de calcul à allouer à une tâche. Les nœuds de calcul et les ressources associées seront ajoutés et supprimés automatiquement en fonction de l'activation de l'autoscaling.

En outre, vous pouvez utiliser les options de pipeline pour remplacer les paramètres par défaut des ressources (type de machine, type et taille du disque) allouées à chaque nœud de calcul.

Services Dataflow

L'opération Dataflow Shuffle permet de partitionner et de regrouper les données par clé de manière évolutive et efficace, tout en bénéficiant d'une tolérance aux pannes. Par défaut, la fonctionnalité de brassage des données de Dataflow s'exécute entièrement à l'aide de machines virtuelles de nœud de calcul et consomme des ressources telles qu'un processeur de calcul, de la mémoire et de l'espace de stockage sur disque persistant.

Dataflow propose également la fonctionnalité Dataflow Shuffle hautement évolutive en option (disponible uniquement pour les pipelines par lot), qui permet de brasser les données en dehors des nœuds de calcul. La fonctionnalité Shuffle est facturée selon le volume de données traitées. Pour activer le service Shuffle dans Dataflow, spécifiez le paramètre de pipeline Shuffle.

Semblable à Shuffle, Dataflow Streaming Engine déplace le traitement du brassage et de l'état des flux de données depuis les VM de nœud de calcul vers le backend du service Dataflow. Spécifiez le paramètre de pipeline Streaming Engine afin de demander à Dataflow d'utiliser Streaming Engine pour vos pipelines de traitement par flux. L'utilisation de Streaming Engine est facturée en fonction du volume de données par flux traitées, qui dépend du volume de données ingérées dans votre pipeline de traitement par flux, ainsi que de la complexité et du nombre d'étapes de pipeline. Par exemple, les flux d'entrée à partir des sources de données, les flux de données d'une étape fusionnée du pipeline à une autre, les flux de données conservés dans un état défini par l'utilisateur ou utilisés pour le fenêtrage, et les messages de sortie vers des récepteurs de données tels que Pub/Sub ou BigQuery comptent tous comme des octets traités.

Dataflow propose également une option avec des prix réduits pour le processeur et la mémoire dans le cadre du traitement par lot. La planification flexible des ressources (FlexRS) regroupe des VM classiques et préemptives dans un seul pool de nœuds de calcul Dataflow, ce qui permet aux utilisateurs d'accéder à des ressources de traitement moins coûteuses. FlexRS peut également retarder l'exécution d'une tâche par lot Dataflow dans un intervalle de temps de six heures, afin de déterminer le meilleur moment pour démarrer la tâche en fonction des ressources disponibles. Lorsque Dataflow utilise une combinaison de nœuds de calcul pour exécuter une tâche FlexRS, un tarif réduit uniforme vous est appliqué (comparativement aux tarifs standards de Dataflow), quel que soit le type de nœud de calcul. Pour demander à Dataflow d'utiliser FlexRS pour vos pipelines par lot avec autoscaling, vous devez spécifier le paramètre FlexRS.

Autres ressources liées aux tâches

En plus de l'utilisation des ressources de nœuds de calcul, une tâche peut consommer les ressources suivantes, chacune faisant l'objet d'une facturation spécifique, y compris, mais sans s'y limiter :

Détail des tarifs

Les futures versions de Dataflow peuvent présenter des tarifs différents et/ou d'autres types de regroupements de services connexes.

Consultez la page Régions et zones de Compute Engine pour en savoir plus sur les régions disponibles et leurs zones.

1 Valeurs par défaut d'un nœud de calcul par lot : 1 processeur virtuel, 3,75 Go de mémoire, disque persistant de 250 Go

2 Valeurs par défaut d'un nœud de calcul FlexRS : 2 processeurs virtuels, 7,50 Go de mémoire, disque persistant de 25 Go par nœud de calcul, avec 2 nœuds de calcul au minimum

3 Valeurs par défaut d'un nœud de calcul par flux : 4 processeurs virtuels, 15 Go de mémoire, disque persistant de 420 Go

4 Dataflow Shuffle est actuellement disponible pour les pipelines de traitement par lot dans les régions suivantes :

  • us-west1 (Oregon)
  • us-central1 (Iowa)
  • us-east1 (Caroline du Sud)
  • us-east4 (Virginie du Nord)
  • europe-west2 (Londres)
  • europe-west1 (Belgique)
  • europe-west4 (Pays-Bas)
  • europe-west3 (Francfort)
  • asia-east1 (Taïwan)
  • asia-northeast1 (Tokyo)

D'autres régions seront ajoutées ultérieurement.

5 Dataflow Streaming Engine utilise l'unité de tarification "Flux de données traités". Cette fonctionnalité est actuellement disponible dans les régions suivantes :

  • us-west1 (Oregon)
  • us-central1 (Iowa)
  • us-east1 (Caroline du Sud)
  • us-east4 (Virginie du Nord)
  • europe-west2 (Londres)
  • europe-west1 (Belgique)
  • europe-west4 (Pays-Bas)
  • europe-west3 (Francfort)
  • asia-east1 (Taïwan)
  • asia-northeast1 (Tokyo)
D'autres régions seront ajoutées ultérieurement.

6 Les tarifs de Shuffle sont calculés en fonction de la quantité de données auxquelles l'infrastructure de service Dataflow accède en lecture et en écriture lors du processus de brassage de votre ensemble de données. Afin d'encourager davantage l'utilisation de la fonctionnalité Shuffle basée sur les services, nous facturons les cinq premiers téraoctets de données traitées par Shuffle à un tarif réduit de 50 %. Ainsi, si votre pipeline génère 1 To de données réellement traitées par Shuffle, vous ne paierez que pour 50 % de ce volume de données (soit 0,5 To). Si votre pipeline génère 10 To de données réellement traitées par Shuffle, vous paierez pour 7,5 To, car les 5 premiers To sont facturés à hauteur de 50 % de leur prix initial.

Consulter les informations sur l'utilisation

Toutes les données sur l'utilisation des ressources de type processeur virtuel, mémoire et disque persistant associées à une tâche sont disponibles dans Google Cloud Console ou via l'outil de ligne de commande gcloud. L'interface de surveillance de Dataflow vous permet de consulter les métriques concernant les données traitées par Shuffle et par flux. Elle indique les données réellement traitées et les données facturables. Vous pouvez utiliser les métriques s'appliquant aux données réellement traitées par Shuffle pour évaluer les performances de votre pipeline. Quant aux métriques concernant les données facturables, elles vous permettent de déterminer les coûts d'une tâche Dataflow. Pour les données par flux, les métriques concernant les données réellement traitées et les données facturables sont les mêmes.

Simulateur de coût

Le Simulateur de coût Google Cloud vous permet de comprendre les modalités de calcul de votre facture.