Preise für Dataproc Dataproc
Die Preise für Dataproc Serverless for Spark basieren auf der Anzahl der Daten-Recheneinheiten (DCUs) und der Menge des verwendeten Shuffle-Speichers. Sowohl DCUs als auch Shuffle-Speicher werden pro Sekunde mit einer Mindestgebühr von 1 Minute abgerechnet.
Jede Dataproc-vCPU zählt als 0,6 DCU, für jedes Gigabyte RAM 0,1 DCU. Von Spark-Treibern und -Executors genutzter Arbeitsspeicher sowie die Systemspeichernutzung werden auf die DCU-Nutzung angerechnet.
Standardmäßig verbraucht jede Batch-Arbeitslast von Dataproc für Spark mindestens 12 DCUs für die Dauer der Batch-Arbeitslast: Der Treiber nutzt 4 vCPUs und 16 GB RAM und 4 DCUs. Jeder der 2 Executors nutzt 4 vCPUs und 16 GB RAM und nutzt 4 DCUs. Sie können die Anzahl der vCPUs und die Speichermenge pro vCPU anpassen, indem Sie Spark-Attribute festlegen. Es fallen keine zusätzlichen Kosten für Compute Engine-VMs oder nichtflüchtige Speicher an.
Preise für Data Compute Unit (DCU)
Der unten dargestellte DCU-Preis ist ein Stundensatz. Er wird anteilig pro Sekunde mit einer Mindestgebühr von einer Minute abgerechnet.
Preise für Shuffle-Speicher
Die folgende Shuffle-Speicherrate ist ein monatlicher Preis. Er wird anteilsmäßig abgerechnet und mit einer Mindestgebühr von einer Minute abgerechnet.
Preisbeispiel
Wenn die Batcharbeitslast von Dataproc für Spark mit 8 DCUs 24 Stunden in der Region „us-central1“ ausgeführt wird und 25 GB Shuffle-Speicher belegt, sieht die Preisberechnung so aus:
Total compute cost = 8 * 24 * $0.060000 = $11.52 Total storage cost = 25 * ($0.040/301) = $0.03 ------------------------------------------------ Total cost = $11.52 + $0.03 = $11.55 Notes: 1. The example assumes a 30-day month. Since the batch workload duration is one day, the monthly shuffle storage rate is divided by 30.
Beispiel für Preisschätzung
Wenn eine Arbeitslast abgeschlossen ist, berechnet Dataproc Serverless for Spark UsageMetrics, die eine Annäherung an die gesamten DCU- und Shuffle-Speicherressourcen enthalten, die von der abgeschlossenen Arbeitslast verbraucht werden. Nach dem Ausführen einer Arbeitslast können Sie den Befehl gcloud dataproc batches describe BATCH_ID
ausführen, um Messwerte zur Arbeitslastnutzung aufzurufen und damit die Kosten für die Ausführung der Arbeitslast zu schätzen.
Beispiel:
Dataproc Serverless for Spark führt eine Arbeitslast auf einem sitzungsspezifischen Cluster mit einem Master und zwei Workern aus. Jeder Knoten verbraucht 4 DCUs (Standard sind 4 DCUs pro Kern – siehe spark.dataproc.driver.disk.size
) und 400 GB Shuffle-Speicher (Standard ist 100 GB pro Kern – siehe spark.driver.cores
). Die Laufzeit der Arbeitslast beträgt 60 Sekunden.
Der Nutzer führt gcloud dataproc batches describe BATCH_ID --region REGION
aus, um Nutzungsmesswerte abzurufen. Die Befehlsausgabe enthält das folgende Snippet (milliDcuSeconds
: 4 DCUs x 3 VMs x 60 seconds x 1000
= 720000
und shuffleStorageGbSeconds
: 400GB x 3 VMs x 60 seconds
= 72000
):
runtimeInfo: approximateUsage: milliDcuSeconds: '720000' shuffleStorageGbSeconds: '72000'
Nutzung anderer Google Cloud-Ressourcen
Optional können für Ihre Dataproc Serverless for Spark-Arbeitslast die folgenden Ressourcen verwendet werden, die jeweils nach ihren eigenen Preisen abgerechnet werden:
Nächste Schritte
- Serverlose Dataproc-Dokumentation
- Erste Schritte mit Dataproc Serverless.
- Preisrechner ausprobieren