Dataflow – Preise
Auf dieser Seite werden die Preise für Dataflow beschrieben. Informationen zu den Preisen anderer Produkte finden Sie in der Preisliste.
Auf unserer Seite zu Rabatten für zugesicherte Nutzung erfahren Sie, wie Sie bei einer dreijährigen Zusicherung 40% und bei einer einjährigen Zusicherung 20% sparen können.
Übersicht
Die Dataflow-Nutzung wird nach den von Ihren Jobs verwendeten Ressourcen abgerechnet. Je nach verwendetem Preismodell werden die Ressourcen unterschiedlich gemessen und in Rechnung gestellt.
Dataflow-Rechenressourcen | Dataflow Prime-Rechenressourcen |
|
Datenrecheneinheiten (Data Compute Units, DCUs) (Batch und Streaming) |
Weitere Dataflow-Ressourcen, die für alle Jobs in Rechnung gestellt werden, sind nichtflüchtiger Speicher, GPUs und Snapshots.
Für den Dataflow-Job können Ressourcen aus anderen Diensten verwendet werden. Mit Dataflow verwendete Dienste können unter anderem BigQuery, Pub/Sub, Cloud Storage und Cloud Logging umfassen.
Obwohl der Preis auf Stundenbasis basiert, wird die Nutzung von Dataflow in Schritten von pro Sekunde und Job abgerechnet. Die Nutzung wird in Stunden angegeben, damit bei einer sekundengenauen Nutzung ein Preis pro Stunde abgerechnet wird. Beispiel: 30 Minuten sind 0, 5 Stunden. Worker und Jobs können Ressourcen wie in den folgenden Abschnitten beschrieben verbrauchen.
Für zukünftige Releases von Dataflow gelten möglicherweise andere Servicegebühren oder andere Bündelungsmöglichkeiten für zugehörige Dienste.
Dataflow-Rechenressourcen
Die Dataflow-Abrechnung für Rechenressourcen umfasst die folgenden Komponenten:
- Worker-CPU und -Arbeitsspeicher
- Für Batcharbeitslasten verarbeitete Dataflow Shuffle-Daten
- Streaming Engine-Recheneinheiten
- Verarbeitete Streaming Engine-Daten
Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Compute Engine-Seite Regionen und Zonen.
Worker-CPU und -Arbeitsspeicher
Jeder Dataflow-Job verwendet mindestens einen Dataflow-Worker. Der Dataflow-Dienst bietet zwei Worker-Typen: Batch und Streaming. Für Batch- und Streaming-Worker gelten unterschiedliche Servicegebühren.
Dataflow-Worker verbrauchen die folgenden Ressourcen, die jeweils pro Sekunde abgerechnet werden:
- CPU
- Speicher
Batch- und Streaming-Worker sind spezialisierte Ressourcen, die Compute Engine nutzen. Allerdings gibt ein Dataflow-Job keine Compute Engine-Abrechnung für Compute Engine-Ressourcen aus, die vom Dataflow-Dienst verwaltet werden. Stattdessen umfassen Dataflow-Servicegebühren die Nutzung dieser Compute Engine-Ressourcen.
Sie können die standardmäßige Anzahl der Worker für einen Job überschreiben. Wenn Sie Autoscaling verwenden, können Sie die maximale Anzahl der Worker angeben, die einem Job zugewiesen werden soll. Worker und entsprechende Ressourcen werden automatisch hinzugefügt und entfernt, je nachdem, ob Autoscaling aktiviert ist.
Darüber hinaus können Sie mit Pipelineoptionen die jedem Worker zugewiesenen Standardressourceneinstellungen wie Maschinentyp, Laufwerkstyp und Laufwerksgröße überschreiben, die GPUs verwenden.
FlexRS
Dataflow bietet eine Option mit ermäßigten CPU- und Speicherpreisen für die Batchverarbeitung. Flexible Resource Scheduling (FlexRS) vereint reguläre VMs und VMs auf Abruf in einem einzigen Dataflow-Worker-Pool, sodass Nutzer Zugriff auf kostengünstigere Verarbeitungsressourcen erhalten. FlexRS verzögert außerdem die Ausführung eines Batch-Dataflow-Jobs innerhalb eines Zeitraums von 6 Stunden, um den besten Zeitpunkt für den Start des Jobs je nach den verfügbaren Ressourcen zu ermitteln.
Obwohl Dataflow zum Ausführen eines FlexRS-Jobs eine Kombination von Workern verwendet, wird Ihnen unabhängig vom Worker-Typ ein einheitlicher ermäßigter Preis von etwa 40% auf CPU- und Arbeitsspeicherkosten im Vergleich zu den regulären Dataflow-Preisen berechnet. Sie weisen Dataflow mit dem Parameter FlexRS an, FlexRS für Ihre automatisch skalierten Batchpipelines zu verwenden.
Verarbeitete Dataflow Shuffle-Daten
Für Batchpipelines bietet Dataflow ein hoch skalierbares Feature namens Dataflow Shuffle, das Daten außerhalb der Worker umverteilt. Weitere Informationen finden Sie unter Dataflow Shuffle.
Die Abrechnung für Dataflow Shuffle erfolgt nach der Menge der während des Shuffle verarbeiteten Daten.
Streaming Engine-Preise
Bei Streamingpipelines verschiebt Dataflow Streaming Engine Streaming-Shuffle und Statusverarbeitung aus den Worker-VMs in das Dataflow-Dienst-Back-End. Weitere Informationen finden Sie unter Streaming Engine.
Streaming Engine-Recheneinheiten
Bei der ressourcenbasierten Abrechnung werden Streaming Engine-Ressourcen in Streaming Engine-Recheneinheiten gemessen. Dataflow erfasst die Streaming Engine-Ressourcen, die die einzelnen Jobs verwenden, und stellt die Abrechnung dann auf Grundlage der insgesamt von diesem Job verwendeten Ressourcen in Rechnung. Informationen zum Aktivieren der ressourcenbasierten Abrechnung für einen Job finden Sie unter Ressourcenbasierte Abrechnung verwenden. Wenn Sie die ressourcenbasierte Abrechnung verwenden, werden vorhandene Rabatte automatisch angewendet.
Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die Kosten auf Grundlage der Gesamtressourcen jedes Jobs in Rechnung gestellt. Statt der SKU der Streaming Engine-Recheneinheit wird jedoch die SKU Data Compute Unit (DCU) verwendet.
Verarbeitete Streaming Engine-Daten (Legacy)
Dataflow unterstützt weiterhin die Legacy-Datenverarbeitung. Wenn Sie die ressourcenbasierte Abrechnung nicht aktivieren, werden Jobs mithilfe der datenverarbeiteten Abrechnung abgerechnet.
Bei der Abrechnung der von Streaming Engine verarbeiteten Daten wird die Nutzung anhand des Volumens der verarbeiteten Streamingdaten gemessen, die von den folgenden Faktoren abhängt:
- Das in die Streamingpipeline aufgenommene Datenvolumen
- Komplexität der Pipeline
- Die Anzahl der Pipelinephasen mit Shuffle-Vorgang oder zustandsorientierten DoFns
Hier einige Beispiele für verarbeitete Byte:
- Eingabeflüsse aus Datenquellen
- Datenflüsse von einer zusammengefassten Pipelinephase zu einer anderen zusammengefassten Phase
- Datenflüsse, die in einem benutzerdefinierten Zustand beibehalten oder für Windowing verwendet werden
- Nachrichten an Datensenken ausgeben, z. B. in Pub/Sub oder BigQuery
Preise für Dataflow-Computing-Ressourcen – Batch und FlexRS
Die folgende Tabelle enthält Preisangaben für Worker-Ressourcen und Shuffle-Daten, die für Batch- und FlexRS-Jobs verarbeitet werden.
1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle nicht verwendet wird, 25 GB nichtflüchtiger Speicher bei Verwendung von Dataflow Shuffle
2 FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern
Preise für Dataflow-Computing-Ressourcen – Streaming
Die folgende Tabelle enthält Preisdetails für Worker-Ressourcen, verarbeitete Streaming Engine-Daten (Legacy) und Streaming Engine-Recheneinheiten für Streamingjobs.
3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 400 GB nichtflüchtiger Speicher, wenn Streaming Engine nicht verwendet wird, 30 GB nichtflüchtiger Speicher bei Verwendung von Streaming Engine. Der Dataflow-Dienst ist derzeit beim Ausführen eines Streamingjobs pro Worker-Instanz auf 15 nichtflüchtige Speicher beschränkt. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist die minimale Ressourcenzuweisung.
4 Die Preise für Dataflow Shuffle basieren auf Volumenanpassungen, die auf die Datenmenge angewendet werden, die während Lese- und Schreibvorgängen beim Umwandeln des Datasets verarbeitet wird. Weitere Informationen finden Sie unter Preisangaben zu Dataflow Shuffle. Dataflow Shuffle-Preise gelten nicht für Streaming Engine-Jobs, die eine ressourcenbasierte Abrechnung verwenden.
5 Streaming Engine-Recheneinheiten: für Streamingjobs, die Streaming Engine und das ressourcenbasierte Abrechnungsmodell verwenden. Für diese Jobs werden die während des Shuffle verarbeiteten Daten nicht in Rechnung gestellt.
Volumenanpassungen für verarbeitete Dataflow Shuffle-Daten
Die Gebühren werden pro Dataflow-Job über Volumenanpassungen berechnet, die auf die Gesamtmenge der während Dataflow Shuffle-Vorgänge verarbeiteten Daten angewendet werden. Ihre tatsächliche Abrechnung für die verarbeiteten Dataflow Shuffle-Daten entspricht dem Standardpreis für ein kleineres Datenvolumen als dem, das in einem Dataflow-Job verarbeitet wurde. Dieser Unterschied führt dazu, dass der Messwert Abrechenbare Shuffle-Daten verarbeitet kleiner ist als der Messwert Insgesamt verarbeitete Shuffle-Daten.
In der folgenden Tabelle wird erläutert, wie diese Gutschriften angewendet werden:
Verarbeitete Dataflow Shuffle-Daten | Abrechnungskorrektur |
Erste 250 GB | 75 % |
Nächste 4.870 GB | 50 % |
Weitere Daten über 5.120 GB (5 TB) | keine |
Wenn Ihre Pipeline beispielsweise insgesamt 1.024 GB (1 TB) an verarbeiteten Dataflow Shuffle-Daten ergibt, wird der abrechenbare Betrag so berechnet:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
Wenn Ihre Pipeline insgesamt 10.240 GB (10 TB) verarbeitete Dataflow Shuffle-Daten umfasst, wird die abrechenbare Datenmenge so berechnet:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Preise für Dataflow Prime-Computing-Ressourcen
Dataflow Prime ist eine Datenverarbeitungsplattform, die auf Dataflow aufbaut, um die Ressourcennutzung und die verteilte Diagnose zu verbessern.
Die von einem Dataflow Prime-Job verwendeten Rechenressourcen werden nach der Anzahl der Datenberechnungseinheiten (Data Compute Units, DCUs) berechnet. DCUs stellen die Rechenressourcen dar, die zum Ausführen Ihrer Pipeline zugewiesen werden. Weitere Dataflow-Ressourcen, die von Dataflow Prime-Jobs verwendet werden, wie nichtflüchtiger Speicher, GPUs und Snapshots, werden separat abgerechnet.
Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Compute Engine-Seite Regionen und Zonen.
Datenrecheneinheit
Eine Data Compute Unit (DCU) ist eine Dataflow-Nutzungsmessungseinheit, die die Anzahl der von Ihren Jobs verbrauchten Rechenressourcen verfolgt. Zu den von DCUs verfolgten Ressourcen gehören vCPU, Arbeitsspeicher, verarbeitete Dataflow Shuffle-Daten (für Batchjobs) und verarbeitete Streaming Engine-Daten (für Streamingjobs). Jobs, die mehr Ressourcen verbrauchen, haben eine höhere DCU-Nutzung als Jobs, die weniger Ressourcen verbrauchen. Ein DCU ist vergleichbar mit den Ressourcen, die von einem Dataflow-Job verwendet werden, der eine Stunde auf einem Worker mit 1 vCPU und 4 GB ausgeführt wird.
Abrechnung für Data Compute Unit
Ihnen wird die Gesamtzahl der von Ihrem Job genutzten DCUs in Rechnung gestellt. Der Preis für einen einzelnen DCU hängt davon ab, ob Sie einen Batch- oder Streamingjob haben. Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die insgesamt verwendeten Ressourcen anstelle des Byteprozesses in Rechnung gestellt.
Nutzung von Datenrecheneinheiten optimieren
Sie können die Anzahl der DCUs für Ihre Jobs nicht festlegen. DCUs werden von Dataflow Prime gezählt. Sie können jedoch die Anzahl der verbrauchten DCUs reduzieren, indem Sie die folgenden Aspekte Ihres Jobs verwalten:
- Arbeitsspeichernutzung reduzieren
- Reduzieren der verarbeiteten Datenmenge bei der Umverteilung von Schritten mithilfe von Filtern, Kombinierern und effizienten Codierern
Verwenden Sie zum Identifizieren dieser Optimierungen die Dataflow-Monitoring-Oberfläche und die Oberfläche für Ausführungsdetails.
Wie unterscheidet sich die Preisgestaltung von Dataflow Prime von den Dataflow-Preisen?
In Dataflow werden Ihnen die unterschiedlichen Ressourcen in Rechnung gestellt, die Ihre Jobs nutzen, z. B. vCPUs, Arbeitsspeicher, nichtflüchtiger Speicher und die von Dataflow Shuffle oder Streaming Engine verarbeitete Datenmenge.
Datenrecheneinheiten konsolidieren alle Ressourcen mit Ausnahme des Speichers in einer einzigen Metering-Einheit. Ihnen werden die Ressourcen des nichtflüchtigen Speichers und die Anzahl der verbrauchten DCUs je nach Jobtyp, Batch oder Streaming in Rechnung gestellt. Weitere Informationen finden Sie unter Dataflow Prime verwenden.
Was geschieht mit meinen vorhandenen Jobs, für die das Dataflow-Preismodell verwendet wird?
Ihre vorhandenen Batch- und Streamingjobs werden weiterhin mit dem Dataflow-Modell abgerechnet. Wenn Sie Ihre Jobs auf die Verwendung von Dataflow Prime aktualisieren, wird für die Jobs das Dataflow Prime-Preismodell verwendet, bei dem die Ressourcen des nichtflüchtigen Speichers und die verbrauchten DCUs in Rechnung gestellt werden.
Weitere Dataflow-Ressourcen
Speicher, GPUs, Snapshots und andere Ressourcen werden für Dataflow und Dataflow Prime auf dieselbe Weise abgerechnet.
Preise für Speicherressourcen
Speicherressourcen werden für Streaming-, Batch- und FlexRS-Jobs zum gleichen Preis abgerechnet. Mit den Pipelineoptionen können Sie die Standardgröße oder den standardmäßigen Laufwerkstyp ändern. Dataflow Prime stellt den nichtflüchtigen Speicher separat anhand der Preise in der folgenden Tabelle in Rechnung.
Der Dataflow-Dienst ist derzeit beim Ausführen eines Streamingjobs pro Worker-Instanz auf 15 nichtflüchtige Speicher beschränkt. Jeder nichtflüchtige Speicher ist lokal einer einzelnen virtuellen Compute Engine-Maschine zugeordnet. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist das Mindestressourcenkontingent.
Jobs mit Streaming Engine verwenden 30 GB-Bootlaufwerke. Jobs mit Dataflow Shuffle verwenden 25 GB-Bootlaufwerke. Bei Jobs, die diese Angebote nicht nutzen, beträgt die Standardgröße jedes nichtflüchtigen Speichers 250 GB im Batchmodus und 400 GB im Streamingmodus.
Die Compute Engine-Nutzung basiert auf der durchschnittlichen Anzahl von Workern, während die Nutzung nichtflüchtiger Speicher auf dem genauen Wert von --maxNumWorkers
basiert. Nichtflüchtige Speicher werden so neu verteilt, dass jeder Worker die gleiche Anzahl von Laufwerken hat.
Preise für GPU-Ressourcen
GPU-Ressourcen werden für Streaming- und Batchjobs zum gleichen Preis abgerechnet. FlexRS unterstützt derzeit keine GPUs. Informationen zu verfügbaren Regionen und Zonen für GPUs finden Sie unter Verfügbarkeit von GPU-Regionen und -Zonen in der Compute Engine-Dokumentation.
Snapshots
Um die Zuverlässigkeit Ihrer Streamingpipelines zu verwalten, können Sie Snapshots verwenden, um den Pipelinestatus zu speichern und wiederherzustellen. Die Snapshot-Nutzung wird nach der Menge der gespeicherten Daten berechnet, die von den folgenden Faktoren abhängt:
- Das in die Streamingpipeline aufgenommene Datenvolumen
- Ihre Windowing-Logik
- Anzahl der Pipelinephasen
Mit der Dataflow-Konsole oder der Google Cloud CLI können Sie einen Snapshot Ihres Streamingjobs erstellen. Für die Erstellung eines Auftrags aus Ihrem Snapshot zur Wiederherstellung des Zustands Ihrer Pipeline fallen keine zusätzlichen Kosten an. Weitere Informationen finden Sie unter Dataflow-Snapshots verwenden.
Snapshot-Preise
Confidential VM
Confidential VM for Dataflow verschlüsselt Daten, die auf Worker-VMs von Compute Engine verwendet werden. Weitere Informationen finden Sie unter Confidential VM – Übersicht.
Für die Verwendung von Confidential VM für Dataflow fallen zusätzliche Pauschalkosten pro vCPU und GB an.
Confidential VM - Preise
Die Preise sind global und ändern sich nicht je nach Google Cloud-Region.
Nicht-Dataflow-Ressourcen
Zusätzlich zur Dataflow-Nutzung kann ein Job folgende Ressourcen verbrauchen, die jeweils nach ihren eigenen Preisen abgerechnet werden. Dazu gehören unter anderem:
-
Dataflow-Jobs speichern temporäre Daten während der Pipelineausführung in Cloud Storage. Damit Ihnen keine unnötigen Speicherkosten entstehen, sollten Sie die Funktion für vorläufiges Löschen für Buckets, die von den Dataflow-Jobs als temporärer Speicher verwendet werden, deaktivieren. Weitere Informationen finden Sie unter Richtlinie für das Soft-Löschen aus einem Bucket entfernen.
-
Sie können Logs an andere Ziele weiterleiten oder Logs von der Aufnahme ausschließen. Informationen zum Optimieren des Logvolumens für Ihre Dataflow-Jobs finden Sie unter Cloud Dataflow-Logvolumen steuern.
Ressourcennutzung ansehen
Die Gesamtzahl der vCPU-, Arbeitsspeicher- und nichtflüchtigen Speicherressourcen, die mit einem Job verknüpft sind, können Sie im Bereich Jobinformationen unter Ressourcenmesswerte einsehen. Sie können die folgenden Messwerte in der Dataflow-Monitoringoberfläche verfolgen:
- vCPU-Gesamtzeit
- Gesamtzeit für Arbeitsspeichernutzung
- Gesamte Nutzungszeit des nichtflüchtigen Speichers
- Gesamte verarbeitete Streamingdaten
- Insgesamt verarbeitete Shuffle-Daten
- Abrechenbare Shuffle-Daten verarbeitet
Sie können den Messwert Verarbeitete Shuffle-Daten insgesamt verwenden, um die Leistung Ihrer Pipeline zu bewerten, und den Messwert Verarbeitete Shuffle-Daten, um die Kosten des Dataflow-Jobs zu ermitteln.
Für Dataflow Prime können Sie die Gesamtzahl der von einem Job genutzten DCUs im Bereich Jobinfo unter Ressourcenmesswerte ansehen.
Preisrechner
Mit dem Preisrechner der Google Cloud können Sie sich ein Bild davon machen, wie sich Ihre Rechnung zusammensetzt.
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
Nächste Schritte
- Lesen Sie die Dataflow-Dokumentation.
- Erste Schritte mit Dataflow
- Preisrechner ausprobieren
- Informationen zu Dataflow-Lösungen und -Anwendungsfällen