Tarifs de Dataproc sans serveur

La tarification de Dataproc sans serveur pour Spark est basée sur le nombre d'unités de calcul de données (DCU), le nombre d'accélérateurs utilisés et la quantité de stockage de brassage utilisée. Les unités de calcul de données, les accélérateurs et le stockage en mode aléatoire sont facturés à la seconde, avec une facturation minimale d'une minute pour les unités de calcul de données et le stockage en mode aléatoire, et une facturation minimale de cinq minutes pour les accélérateurs.

Chaque vCPU Dataproc compte pour 0,6 DCU. La RAM est facturée différemment au-delà de 8 Go. Chaque gigaoctet de RAM en dessous de 8 Go par processeur virtuel représente 0,1 unité de calcul de données, et chaque gigaoctet de RAM au-delà de 8 gigaoctets par processeur virtuel représente 0,2 unité de calcul de données. La mémoire utilisée par les exécuteurs et les exécuteurs Spark, ainsi que l'utilisation de la mémoire système, est comptabilisée dans l'utilisation des unités de calcul de données.

Par défaut, chaque charge de travail interactive et par lot Dataproc sans serveur pour Spark consomme au moins 12 unités de calcul de données pour la durée de la charge de travail: le pilote utilise quatre processeurs virtuels et 16 Go de RAM, et quatre exécuteurs, et chacun des deux exécuteurs utilise quatre processeurs virtuels, 16 Go de RAM et quatre unités de calcul de mémoire. Vous pouvez personnaliser le nombre de processeurs virtuels et la quantité de mémoire par processeur virtuel en définissant les propriétés Spark. Aucuns frais supplémentaires pour les VM Compute Engine ou les disques persistants ne s'appliquent.

Tarifs des unités de calcul de données

Le taux de unités de calcul de données indiqué ci-dessous est un taux horaire. Il est calculé au prorata et facturé à la seconde, avec un coût minimal d'une minute. Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des SKU de Cloud Platform s'appliquent.

Dataproc sans serveur pour les charges de travail interactives Spark est facturé au tarif Premium.

Tarifs du stockage Shuffle

Le taux de stockage de brassage indiqué ci-dessous est un tarif mensuel. Il est calculé au prorata et facturé à la seconde, avec une facturation minimale d'une minute pour le stockage de brassage standard et une facturation minimale de 5 minutes pour le stockage de brassage Premium. Le stockage aléatoire premium ne peut être utilisé qu'avec les unités de calcul Premium.

Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des SKU de Cloud Platform s'appliquent.

Tarifs pour les accélérateurs

Le taux d'accélération indiqué ci-dessous est un tarif horaire. Il est calculé au prorata et facturé à la seconde, avec un coût minimal de cinq minutes. Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des SKU de Cloud Platform s'appliquent.

Exemple de tarification

Si la charge de travail par lot Dataproc sans serveur pour Spark s'exécute avec 12 unités de calcul de données (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) pendant 24 heures dans la région us-central1 et consomme 25 Go de stockage aléatoire, le calcul du prix est le suivant.

Total compute cost = 12 * 24 * $0.060000 = $17.28
Total storage cost = 25 * ($0.040/301) = $0.03
------------------------------------------------
Total cost = $17.28 + $0.03 = $17.31

Remarques :

  1. Dans cet exemple, le mois est de 30 jours. Comme la durée de la charge de travail par lot est d'un jour, le taux mensuel de stockage de brassage est divisé par 30.

Si la charge de travail par lot Dataproc sans serveur pour Spark s'exécute avec 12 unités de calcul de données et deux GPU L4 (spark.driver.cores=4,spark.executor.cores=4, spark.executor.instances=2,spark.dataproc.driver.compute.tier=premium, spark.dataproc.executor.compute.tier=premium, spark.dataproc.executor.disk.tier=premium, spark.dataproc.executor.resource.accelerator.type=l4) pendant 24 heures dans la région us-central1 et consomme 25 Go de stockage aléatoire, le calcul des prix est le suivant.

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.1/301) = $0.083
Total accelerator cost = 2 * 24 * $0.6720 = $48.39
------------------------------------------------
Total cost = $25.632 + $0.083 + $48.39 = $74.105

Remarques :

  1. Dans cet exemple, le mois est de 30 jours. Comme la durée de la charge de travail par lot est d'un jour, le taux mensuel de stockage de brassage est divisé par 30.

Si la charge de travail interactive Dataproc sans serveur pour Spark s'exécute avec 12 unités de calcul de données (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) pendant 24 heures dans la région us-central1 et consomme 25 Go d'espace de stockage aléatoire, le calcul du prix est le suivant:

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.040/301) = $0.03
------------------------------------------------
Total cost = $25.632 + $0.03 = $25.662

Remarques :

  1. Dans cet exemple, le mois est de 30 jours. Comme la durée de la charge de travail par lot est d'un jour, le taux mensuel de stockage de brassage est divisé par 30.

Exemple d'estimation de tarification

Lorsqu'une charge de travail par lot est terminée, Dataproc sans serveur pour Spark calcule les métriques UsageMetrics, qui contiennent une approximation du nombre total de ressources de stockage de données de calcul de données, d'accélérateurs et de brassage utilisés par la charge de travail terminée. Après avoir exécuté une charge de travail, vous pouvez exécuter la commande gcloud dataproc batches describe BATCH_ID pour afficher les métriques d'utilisation de la charge de travail et vous aider à estimer le coût d'exécution de la charge de travail.

Exemple :

Dataproc sans serveur pour Spark exécute une charge de travail sur un cluster éphémère avec un nœud maître et deux nœuds de calcul. Chaque nœud consomme 4 unités de calcul de données (par défaut, 4 par cœur, voir spark.dataproc.driver.disk.size) et 400 Go de stockage en mode aléatoire (100 Go par cœur par défaut, voir spark.driver.cores). La durée d'exécution de la charge de travail est de 60 secondes. De plus, chaque nœud de calcul dispose d'un GPU, soit deux au total sur l'ensemble du cluster.

L'utilisateur exécute gcloud dataproc batches describe BATCH_ID --region REGION pour obtenir les métriques d'utilisation. Le résultat de la commande inclut l'extrait suivant (milliDcuSeconds: 4 DCUs x 3 VMs x 60 seconds x 1000 = 720000, milliAcceleratorSeconds: 1 GPU x 2 VMs x 60 seconds x 1000 = 120000 et shuffleStorageGbSeconds: 400GB x 3 VMs x 60 seconds = 72000):

runtimeInfo:
  approximateUsage:
    milliDcuSeconds: '720000'
    shuffleStorageGbSeconds: '72000'
    milliAcceleratorSeconds: '120000'

Utilisation d'autres ressources Google Cloud

Votre charge de travail Dataproc sans serveur pour Spark peut éventuellement utiliser les ressources suivantes, chacune faisant l'objet d'une facturation spécifique, y compris, mais sans s'y limiter:

Étape suivante

Demander un devis personnalisé

Avec le paiement à l'usage de Google Cloud, vous ne payez que pour les services que vous utilisez. Contactez notre équipe commerciale pour obtenir un devis personnalisé pour votre entreprise.
Contacter le service commercial