Tarifs de Cloud Dataflow

Cette page présente les tarifs de Cloud Dataflow. Pour les autres produits, consultez la documentation sur les tarifs.

Présentation de la tarification

Bien que le tarif soit calculé sur une base horaire, l'utilisation du service Cloud Dataflow est facturée par incréments d'une seconde et par tâche. L'utilisation est indiquée en heures (par exemple, 30 minutes correspondent à 0,5 heure) afin d'appliquer un tarif horaire à l'utilisation à la seconde près. Les nœuds de calcul et les tâches peuvent consommer des ressources, tel que décrit dans les sections suivantes.

Ressources de calcul et nœuds de calcul

Une tâche Cloud Dataflow utilise au moins un nœud de calcul Cloud Dataflow. Le service Cloud Dataflow fournit deux types de nœuds de calcul : par lot et par flux. Les frais de service pour les nœuds de calcul par flux et par lot sont calculés différemment.

Les nœuds de calcul de Cloud Dataflow consomment les ressources suivantes, qui sont chacune facturées à la seconde.

Les nœuds de calcul par lot et par flux sont des ressources spécialisées qui utilisent Compute Engine. Toutefois, une tâche Cloud Dataflow n'entraîne pas de frais Compute Engine pour des ressources Compute Engine gérées par le service Cloud Dataflow. En revanche, les tarifs du service Cloud Dataflow couvrent l'utilisation de ces ressources Compute Engine.

Vous pouvez remplacer le nombre de nœuds de calcul par défaut pour une tâche. Si vous utilisez l'autoscaling, vous pouvez spécifier le nombre maximal de nœuds de calcul à allouer à une tâche. Les nœuds de calcul et les ressources associées seront ajoutés et supprimés automatiquement en fonction de l'activation de l'autoscaling.

En outre, vous pouvez utiliser les options de pipeline pour remplacer les paramètres par défaut des ressources (type de machine, type et taille du disque) allouées à chaque nœud de calcul.

Services Cloud Dataflow

L'opération Cloud Dataflow Shuffle permet de partitionner et de regrouper les données par clé de manière évolutive et efficace tout en bénéficiant d'une tolérance aux pannes. Par défaut, la fonctionnalité de distribution des données dans Cloud Dataflow s'exécute entièrement à l'aide de machines virtuelles de calcul et consomme des ressources telles qu'un processeur de calcul, de la mémoire et de l'espace de stockage sur disque persistant.

Cloud Dataflow propose également la fonctionnalité Cloud Dataflow Shuffle hautement évolutive en option (disponible uniquement pour les pipelines par lot), qui permet de distribuer les données en dehors des nœuds de calcul. Shuffle est facturé selon le volume de données traitées. Pour activer le service Shuffle dans Cloud Dataflow, spécifiez le paramètre Shuffle dans vos pipelines.

Semblable à Shuffle, Cloud Dataflow Streaming Engine déplace le traitement de la distribution et de l'état des flux de données depuis les VM de calcul vers le backend du service Cloud Dataflow. Pour activer les pipelines de flux de données dans Cloud Dataflow, utilisez Streaming Engine en spécifiant le paramètre Streaming Engine dans vos pipelines. L'utilisation de Streaming Engine est facturée en fonction du volume de données par flux traitées, qui dépend du volume de données ingérées dans votre pipeline de traitement par flux, ainsi que de la complexité et du nombre d'étapes de pipeline. Par exemple, les flux d'entrée à partir des sources de données, les flux de données d'une étape fusionnée du pipeline à une autre, les flux de données conservés dans un état défini par l'utilisateur ou utilisés pour le fenêtrage, et les messages de sortie vers des récepteurs de données comme Cloud Pub/Sub ou BigQuery comptent tous comme des octets traités.

Cloud Dataflow propose également une option avec des prix réduits pour le processeur et la mémoire dans le cadre du traitement par lot. La planification flexible des ressources (FlexRS) regroupe des VM classiques et préemptives dans un seul pool de nœuds de calcul Cloud Dataflow, ce qui permet aux utilisateurs d'accéder à des ressources de traitement moins coûteuses. FlexRS peut également retarder l'exécution d'une tâche par lot Cloud Dataflow dans un intervalle de temps de six heures, afin de déterminer le meilleur moment pour démarrer la tâche en fonction des ressources disponibles. Lorsque Cloud Dataflow utilise une combinaison de nœuds de calcul pour exécuter une tâche FlexRS, vous êtes facturé à un tarif réduit uniforme comparé aux prix ordinaires de Cloud Dataflow, quel que soit le type de nœud de calcul. Pour demander à Cloud Dataflow d'utiliser FlexRS pour vos pipelines par lot avec autoscaling, vous devez spécifier le paramètre FlexRS.

Autres ressources relatives aux tâches

En plus de l'utilisation des ressources de nœuds de calcul, une tâche peut consommer les ressources suivantes, chacune faisant l'objet d'une facturation spécifique, y compris, mais sans s'y limiter :

Détail des tarifs

Les futures versions de Cloud Dataflow peuvent présenter des tarifs différents et/ou d'autres types de regroupement de services connexes.

Consultez la page Régions et zones de Compute Engine pour en savoir plus sur les régions disponibles et leurs zones.

Iowa (us-central1) Los Angeles (us-west2) Oregon (us-west1) Virginie du Nord (us-east4) Caroline du Sud (us-east1) Montréal (northamerica-northeast1) São Paulo (southamerica-east1) Belgique (europe-west1) Finlande (europe-north1) Francfort (europe-west3) Londres (europe-west2) Pays-Bas (europe-west4) Zurich (europe-west6) Mumbai (asia-south1) Singapour (asia-southeast1) Sydney (australia-southeast1) Hong Kong (asia-east2) Taïwan (asia-east1) Tokyo (asia-northeast1) Osaka (asia-northeast2)
Type de nœud de calcul Cloud Dataflow Processeur virtuel
(par heure)
Mémoire
(par Go et par heure)
Espace de stockage – Disque persistant standard
(par Go et par heure)
Espace de stockage – Disque persistant SSD
(par Go et par heure)
Données traitées4, 5
(par Go)6
Lots1
FlexRS2
Flux3

Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page relative aux SKU de Cloud Platform s'appliquent.

1 Valeurs par défaut d'un nœud de calcul par lots : 1 processeur virtuel, 3,75 Go de mémoire, disque persistant de 250 Go

2 Valeurs par défaut d'un nœud de calcul FlexRS : 2 processeurs virtuels, 7,5 Go de mémoire, disque persistant de 25 Go par nœud de calcul, avec deux nœuds de calcul au minimum

3 Valeurs par défaut d'un nœud de calcul par flux : 4 processeurs virtuels, 15 Go de mémoire, disque persistant de 420 Go

4 Cloud Dataflow Shuffle est actuellement disponible pour les pipelines par lots dans les régions suivantes :

  • us-central1 (Iowa)
  • europe-west1 (Belgique)
  • europe-west4 (Pays-Bas)
  • asia-northeast1 (Tokyo)

D'autres régions seront ajoutées ultérieurement.

5 Cloud Dataflow Streaming Engine utilise l'unité de tarification Flux de données traités. Cette fonctionnalité est actuellement disponible dans les régions suivantes :

  • us-central1 (Iowa)
  • europe-west1 (Belgique)
  • europe-west4 (Pays-Bas)
  • asia-northeast1 (Tokyo)
D'autres régions seront ajoutées ultérieurement.

6 Avant le 3 mai 2018, la fonctionnalité Cloud Dataflow Shuffle était facturée de la façon suivante : la quantité de données brassées était multipliée par le temps nécessaire au brassage des données et à leur conservation dans la mémoire de Shuffle. Le prix s'élevait à 0,0216 $ par gigaoctet et par heure. Depuis le 3 mai 2018, les tarifs de Shuffle sont exclusivement calculés en fonction de la quantité de données auxquelles notre infrastructure de service Cloud Dataflow accède en lecture et en écriture lors du processus de distribution de votre ensemble de données. Le gigaoctet est l'unité de tarification utilisée, et le temps de traitement des données n'est plus pris en compte. Les utilisateurs qui disposent d'ensembles de données volumineux, voire très volumineux, devraient constater une baisse importante de leurs coûts d'utilisation de Shuffle.
Afin d'encourager davantage l'utilisation de la fonctionnalité Shuffle basée sur les services, nous facturons les cinq premiers téraoctets de données traitées par Shuffle à un taux réduit de 50 %. Ainsi, si votre pipeline génère 1 To de données réellement traitées par Shuffle, vous ne paierez que pour 50 % de ce volume de données (soit 0,5 To). Si votre pipeline génère 10 To de données réellement traitées par Shuffle, vous paierez pour 7,5 To, car les 5 premiers To sont facturés à hauteur de 50 % de leur prix initial.

Consulter les informations sur l'utilisation

Toutes les données sur l'utilisation des ressources de type processeur virtuel, mémoire et disque persistant associées à une tâche sont disponibles dans la console Google Cloud Platform ou via l'outil de ligne de commande gcloud. Vous pouvez consulter les métriques relatives aux données et données par flux traitées par Shuffle dans l'interface de surveillance de Cloud Dataflow. Vous pouvez analyser, d'une part, les quantités de données réellement traitées par Shuffle pour évaluer les performances de votre pipeline et, d'autre part, la proportion payante des données traitées par Shuffle pour déterminer le coût d'une tâche Cloud Dataflow. Pour les données par flux traitées, les métriques relatives aux données réellement traitées et aux données facturables sont les mêmes.

Simulateur de coût

Si vous souhaitez mieux comprendre le calcul de votre facture, utilisez le simulateur de coût Google Cloud Platform.

Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…

Besoin d'aide ? Consultez notre page d'assistance.