Tarifs de Dataproc sans serveur

Dataproc | Dataproc sans serveur | Dataproc Metastore

Les tarifs de Dataproc Serverless pour Spark sont basés sur le nombre d'unités de calcul de données (DCU), le nombre d'accélérateurs utilisés et la quantité de stockage de mélange utilisée. Les UC, les accélérateurs et le stockage Shuffle sont facturés à la seconde, avec un minimum d'une minute pour les UC et le stockage Shuffle, et un minimum de cinq minutes pour les accélérateurs.

Chaque vCPU Dataproc est comptabilisé comme 0,6 DCU. La RAM est facturée différemment en-dessous et au-dessus de 8 Go. Chaque gigaoctet de RAM inférieur à 8 Go par vCPU correspond à 0,1 DCU, et chaque gigaoctet de RAM supérieur à 8 Go par vCPU correspond à 0,2 DCU. La mémoire utilisée par les pilotes et les exécuteurs Spark, ainsi que l'utilisation de la mémoire système, sont comptabilisées dans l'utilisation des DCU.

Par défaut, chaque charge de travail par lot et interactive Dataproc Serverless pour Spark consomme au minimum 12 UCD pendant toute sa durée. Le pilote utilise quatre UCD, quatre vCPU et 16 Go de RAM, et chacun des deux exécuteurs utilise quatre UCD, quatre vCPU et 16 Go de RAM. Vous pouvez personnaliser le nombre de vCPU et la quantité de mémoire par vCPU en définissant les propriétés Spark. Aucuns frais supplémentaires ne s'appliquent pour les VM Compute Engine ou les disques persistants.

Tarifs des unités de calcul de données (DCU)

Le tarif des DCU indiqué ci-dessous est un tarif horaire. Il est proratisé et facturé à la seconde, avec un minimum d'une minute. Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des SKU de Cloud Platform s'appliquent.

La charge de travail interactive Dataproc sans serveur pour Spark est facturée au tarif Premium.

Tarifs du stockage Shuffle

Le tarif de stockage aléatoire indiqué ci-dessous est un tarif mensuel. Il est proratisé et facturé à la seconde, avec un minimum d'une minute pour le stockage aléatoire standard et de cinq minutes pour le stockage aléatoire Premium. Le stockage Premium Shuffle ne peut être utilisé qu'avec une unité de calcul Premium.

Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des SKU de Cloud Platform s'appliquent.

Tarifs des accélérateurs

Le tarif de l'accélérateur indiqué ci-dessous est un tarif horaire. Il est proratisé et facturé à la seconde, avec un minimum de 5 minutes. Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des SKU de Cloud Platform s'appliquent.

Exemple de tarification

Si la charge de travail par lot Dataproc sans serveur pour Spark s'exécute avec 12 DCU (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) pendant 24 heures dans la région us-central1 et consomme 25 Go d'espace de stockage de mélange, le calcul du prix est le suivant.

Total compute cost = 12 * 24 * $0.060000 = $17.28
Total storage cost = 25 * ($0.040/30¹) = $0.03
------------------------------------------------
Total cost = $17.28 + $0.03 = $17.31

Remarques :

Cet exemple suppose un mois de 30 jours. Comme la durée de la charge de travail par lot est d'un jour, le tarif mensuel de stockage de données de type shuffle est divisé par 30.

Si la charge de travail par lot Dataproc sans serveur pour Spark s'exécute avec 12 DCU et 2 GPU L4 (spark.driver.cores=4,spark.executor.cores=4, spark.executor.instances=2,spark.dataproc.driver.compute.tier=premium, spark.dataproc.executor.compute.tier=premium, spark.dataproc.executor.disk.tier=premium, spark.dataproc.executor.resource.accelerator.type=l4) pendant 24 heures dans la région us-central1 et consomme 25 Go de stockage de mélange, le calcul du prix est le suivant.

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.1/30¹) = $0.083
Total accelerator cost = 2 * 24 * $0.6720 = $48.39
------------------------------------------------
Total cost = $25.632 + $0.083 + $48.39 = $74.105

Remarques :

Cet exemple suppose un mois de 30 jours. Comme la durée de la charge de travail par lot est d'un jour, le tarif mensuel de stockage de données de type shuffle est divisé par 30.

Si la charge de travail interactive Dataproc sans serveur pour Spark s'exécute avec 12 DCU (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) pendant 24 heures dans la région us-central1 et consomme 25 Go d'espace de stockage de mélange, le calcul du prix est le suivant:

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.040/30¹) = $0.03
------------------------------------------------
Total cost = $25.632 + $0.03 = $25.662

Remarques :

Cet exemple suppose un mois de 30 jours. Comme la durée de la charge de travail par lot est d'un jour, le tarif mensuel de stockage de données de type shuffle est divisé par 30.

Exemple d'estimation des coûts

Une fois la charge de travail par lot terminée, Dataproc sans serveur pour Spark calcule des UsageMetrics qui contiennent une approximation du nombre total de ressources de calcul, d'accélérateur et de stockage de mélange consommées par la charge de travail terminée. Après avoir exécuté une charge de travail, vous pouvez exécuter la commande gcloud dataproc batches describe BATCH_ID pour afficher les métriques d'utilisation de la charge de travail afin d'estimer le coût de son exécution.

Exemple :

Dataproc sans serveur pour Spark exécute une charge de travail sur un cluster éphémère avec un nœud maître et deux nœuds de calcul. Chaque nœud consomme quatre unités de calcul Google (par défaut, quatre unités de calcul par cœur, voir spark.dataproc.driver.disk.size) et 400 Go d'espace de stockage de type Shuffle (par défaut, 100 Go par cœur, voir spark.driver.cores). La charge de travail s'exécute pendant 60 secondes. De plus, chaque nœud de calcul dispose d'un GPU, soit un total de deux GPU pour le cluster.

L'utilisateur exécute gcloud dataproc batches describe BATCH_ID --region REGION pour obtenir les métriques d'utilisation. Le résultat de la commande inclut l'extrait suivant: milliDcuSeconds: 4 DCUs x 3 VMs x 60 seconds x 1000 =720000, milliAcceleratorSeconds: 1 GPU x 2 VMs x 60 seconds x 1000 =120000 et shuffleStorageGbSeconds : 400GB x 3 VMs x 60 seconds = 72000

runtimeInfo:
  approximateUsage:
    milliDcuSeconds: '720000'
    shuffleStorageGbSeconds: '72000'
    milliAcceleratorSeconds: '120000'

Utilisation d'autres ressources Google Cloud

Votre charge de travail Dataproc sans serveur pour Spark peut aussi utiliser les ressources suivantes, chacune faisant l'objet d'une facturation spécifique, y compris, mais sans s'y limiter:

Étape suivante

Consultez la documentation de Dataproc sans serveur.
Premiers pas avec Dataproc sans serveur.
Essayez le Simulateur de coût.

Demander un devis personnalisé

Avec le paiement à l'usage de Google Cloud, vous ne payez que pour les services que vous utilisez. Contactez notre équipe commerciale pour obtenir un devis personnalisé pour votre entreprise.

Contacter le service commercial