Tarifs de Dataproc sans serveur
La tarification de Dataproc sans serveur pour Spark est basée sur le nombre d'unités de calcul de données (DCU), le nombre d'accélérateurs utilisés et la quantité de stockage de brassage utilisée. Les unités de calcul de données, les accélérateurs et le stockage en mode aléatoire sont facturés à la seconde, avec une facturation minimale d'une minute pour les unités de calcul de données et le stockage en mode aléatoire, et une facturation minimale de cinq minutes pour les accélérateurs.
Chaque vCPU Dataproc compte pour 0,6 DCU. La RAM est facturée différemment au-delà de 8 Go. Chaque gigaoctet de RAM en dessous de 8 Go par processeur virtuel représente 0,1 unité de calcul de données, et chaque gigaoctet de RAM au-delà de 8 gigaoctets par processeur virtuel représente 0,2 unité de calcul de données. La mémoire utilisée par les exécuteurs et les exécuteurs Spark, ainsi que l'utilisation de la mémoire système, est comptabilisée dans l'utilisation des unités de calcul de données.
Par défaut, chaque charge de travail interactive et par lot Dataproc sans serveur pour Spark consomme au moins 12 unités de calcul de données pour la durée de la charge de travail: le pilote utilise quatre processeurs virtuels et 16 Go de RAM, et quatre exécuteurs, et chacun des deux exécuteurs utilise quatre processeurs virtuels, 16 Go de RAM et quatre unités de calcul de mémoire. Vous pouvez personnaliser le nombre de processeurs virtuels et la quantité de mémoire par processeur virtuel en définissant les propriétés Spark. Aucuns frais supplémentaires pour les VM Compute Engine ou les disques persistants ne s'appliquent.
Tarifs des unités de calcul de données
Le taux de unités de calcul de données indiqué ci-dessous est un taux horaire. Il est calculé au prorata et facturé à la seconde, avec un coût minimal d'une minute.
Dataproc sans serveur pour les charges de travail interactives Spark est facturé au tarif Premium.
Tarifs du stockage Shuffle
Le taux de stockage de brassage indiqué ci-dessous est un tarif mensuel. Il est calculé au prorata et facturé à la seconde, avec une facturation minimale d'une minute pour le stockage de brassage standard et une facturation minimale de 5 minutes pour le stockage de brassage Premium. Le stockage aléatoire premium ne peut être utilisé qu'avec les unités de calcul Premium.
Tarifs pour les accélérateurs
Le taux d'accélération indiqué ci-dessous est un tarif horaire. Il est calculé au prorata et facturé à la seconde, avec un coût minimal de cinq minutes.
Exemple de tarification
Si la charge de travail par lot Dataproc sans serveur pour Spark s'exécute avec 12 unités de calcul de données (spark.driver.cores=4
,spark.executor.cores=4
,spark.executor.instances=2
) pendant 24 heures dans la région us-central1 et consomme 25 Go de stockage aléatoire, le calcul du prix est le suivant.
Total compute cost = 12 * 24 * $0.060000 = $17.28 Total storage cost = 25 * ($0.040/301) = $0.03 ------------------------------------------------ Total cost = $17.28 + $0.03 = $17.31
Remarques :
- Dans cet exemple, le mois est de 30 jours. Comme la durée de la charge de travail par lot est d'un jour, le taux mensuel de stockage de brassage est divisé par 30.
Si la charge de travail par lot Dataproc sans serveur pour Spark s'exécute avec 12 unités de calcul de données et deux GPU L4 (spark.driver.cores=4
,spark.executor.cores=4
, spark.executor.instances=2
,spark.dataproc.driver.compute.tier=premium
, spark.dataproc.executor.compute.tier=premium
, spark.dataproc.executor.disk.tier=premium
, spark.dataproc.executor.resource.accelerator.type=l4
) pendant 24 heures dans la région us-central1 et consomme 25 Go de stockage aléatoire, le calcul des prix est le suivant.
Total compute cost = 12 * 24 * $0.089000 = $25.632 Total storage cost = 25 * ($0.1/301) = $0.083 Total accelerator cost = 2 * 24 * $0.6720 = $48.39 ------------------------------------------------ Total cost = $25.632 + $0.083 + $48.39 = $74.105
Remarques :
- Dans cet exemple, le mois est de 30 jours. Comme la durée de la charge de travail par lot est d'un jour, le taux mensuel de stockage de brassage est divisé par 30.
Si la charge de travail interactive Dataproc sans serveur pour Spark s'exécute avec 12 unités de calcul de données (spark.driver.cores=4
,spark.executor.cores=4
,spark.executor.instances=2
) pendant 24 heures dans la région us-central1 et consomme 25 Go d'espace de stockage aléatoire, le calcul du prix est le suivant:
Total compute cost = 12 * 24 * $0.089000 = $25.632 Total storage cost = 25 * ($0.040/301) = $0.03 ------------------------------------------------ Total cost = $25.632 + $0.03 = $25.662
Remarques :
- Dans cet exemple, le mois est de 30 jours. Comme la durée de la charge de travail par lot est d'un jour, le taux mensuel de stockage de brassage est divisé par 30.
Exemple d'estimation de tarification
Lorsqu'une charge de travail par lot est terminée, Dataproc sans serveur pour Spark calcule les métriques UsageMetrics, qui contiennent une approximation du nombre total de ressources de stockage de données de calcul de données, d'accélérateurs et de brassage utilisés par la charge de travail terminée. Après avoir exécuté une charge de travail, vous pouvez exécuter la commande gcloud dataproc batches describe BATCH_ID
pour afficher les métriques d'utilisation de la charge de travail et vous aider à estimer le coût d'exécution de la charge de travail.
Exemple :
Dataproc sans serveur pour Spark exécute une charge de travail sur un cluster éphémère avec un nœud maître et deux nœuds de calcul. Chaque nœud consomme 4 unités de calcul de données (par défaut, 4 par cœur, voir spark.dataproc.driver.disk.size
) et 400 Go de stockage en mode aléatoire (100 Go par cœur par défaut, voir spark.driver.cores
). La durée d'exécution de la charge de travail est de 60 secondes. De plus, chaque nœud de calcul dispose d'un GPU, soit deux au total sur l'ensemble du cluster.
L'utilisateur exécute gcloud dataproc batches describe BATCH_ID --region REGION
pour obtenir les métriques d'utilisation. Le résultat de la commande inclut l'extrait suivant (milliDcuSeconds
: 4 DCUs x 3 VMs x 60 seconds x 1000
= 720000
, milliAcceleratorSeconds
: 1 GPU x 2 VMs x 60 seconds x 1000
= 120000
et shuffleStorageGbSeconds
: 400GB x 3 VMs x 60 seconds
= 72000
):
runtimeInfo: approximateUsage: milliDcuSeconds: '720000' shuffleStorageGbSeconds: '72000' milliAcceleratorSeconds: '120000'
Utilisation d'autres ressources Google Cloud
Votre charge de travail Dataproc sans serveur pour Spark peut éventuellement utiliser les ressources suivantes, chacune faisant l'objet d'une facturation spécifique, y compris, mais sans s'y limiter:
Étape suivante
- Consultez la documentation Dataproc sans serveur.
- Faites vos premiers pas avec Dataproc sans serveur.
- Essayez le Simulateur de coût.