Dataflow – Preise
Auf dieser Seite werden die Preise für Dataflow beschrieben. Informationen zu den Preisen anderer Produkte finden Sie in der Preisliste.
Auf der Seite Rabatte für zugesicherte Nutzung können Sie nachlesen, wie Sie bei einer dreijährigen Zusicherung 40% oder bei einer einjährigen Zusicherung 20% sparen können.
Überblick
Die Dataflow-Nutzung wird für die von Ihren Jobs genutzten Ressourcen in Rechnung gestellt. Je nach Preismodell, das Sie verwenden, werden Ressourcen unterschiedlich gemessen und abgerechnet.
Dataflow-Rechenressourcen | Dataflow Prime-Rechenressourcen |
|
Datenrecheneinheiten (Data Compute Units, DCUs) (Batch und Streaming) |
Weitere Dataflow-Ressourcen, die für alle Jobs in Rechnung gestellt werden, sind nichtflüchtiger Speicher, GPUs und Snapshots.
Ressourcen aus anderen Diensten können für den Dataflow-Job verwendet werden. Zu den mit Dataflow verwendeten Diensten gehören unter anderem BigQuery, Pub/Sub, Cloud Storage und Cloud Logging.
Der Preis wird zwar pro Stunde angegeben, die Abrechnung von Dataflow erfolgt jedoch pro Sekunde und Job. Die Nutzung wird in Stunden angegeben, um einen stündlichen Preis für die sekundengenaue Nutzung zu erhalten. 30 Minuten sind beispielsweise 0, 5 Stunden. Worker und Jobs können Ressourcen wie in den folgenden Abschnitten beschrieben nutzen.
Für zukünftige Releases von Dataflow gelten möglicherweise andere Servicegebühren oder andere Bündelungsmöglichkeiten für zugehörige Dienste.
Dataflow-Rechenressourcen
Die Dataflow-Abrechnung für Rechenressourcen umfasst die folgenden Komponenten:
- Worker-CPU und -Arbeitsspeicher
- Dataflow Shuffle-Daten für Batcharbeitslasten verarbeitet
- Streaming Engine-Recheneinheiten
- Streaming Engine-Daten
Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Compute Engine-Seite Regionen und Zonen.
Worker-CPU und -Arbeitsspeicher
Jeder Dataflow-Job verwendet mindestens einen Dataflow-Worker. Der Dataflow-Dienst bietet zwei Worker-Typen: Batch und Streaming. Für Batch- und Streaming-Worker fallen separate Servicegebühren an.
Dataflow-Worker verbrauchen die folgenden Ressourcen, die jeweils pro Sekunde abgerechnet werden:
- CPU
- Arbeitsspeicher
Batch- und Streaming-Worker sind spezialisierte Ressourcen, die Compute Engine nutzen. Ein Dataflow-Job gibt jedoch keine Compute Engine-Abrechnung für Compute Engine-Ressourcen aus, die vom Dataflow-Dienst verwaltet werden. Stattdessen wird die Nutzung dieser Compute Engine-Ressourcen in den Dataflow-Dienstgebühren berücksichtigt.
Sie können die standardmäßige Anzahl der Worker für einen Job überschreiben. Wenn Sie Autoscaling verwenden, können Sie die maximale Anzahl von Workern angeben, die einem Job zugewiesen werden sollen. Worker und entsprechende Ressourcen werden automatisch hinzugefügt und entfernt, wenn Autoscaling aktiviert ist.
Darüber hinaus können Sie mit Pipeline-Optionen die Standardressourceneinstellungen wie Maschinentyp, Laufwerkstyp und Laufwerksgröße überschreiben, die jedem Worker zugewiesen sind und GPUs verwenden.
FlexRS
Dataflow bietet eine Option mit ermäßigten CPU- und Arbeitsspeicherpreisen für die Batchverarbeitung. Flexible Resource Scheduling (FlexRS) vereint reguläre VMs und VMs auf Abruf in einem einzigen Dataflow-Worker-Pool, sodass Nutzer Zugriff auf kostengünstigere Verarbeitungsressourcen erhalten. FlexRS verzögert außerdem die Ausführung eines Batch-Dataflow-Jobs innerhalb eines Zeitraums von 6 Stunden, um den besten Zeitpunkt für den Start des Jobs je nach den verfügbaren Ressourcen zu ermitteln.
Obwohl Dataflow eine Kombination von Workern zum Ausführen eines FlexRS-Jobs verwendet, wird Ihnen unabhängig vom Worker-Typ ein einheitlicher ermäßigter Preis von etwa 40% für CPU- und Arbeitsspeicherkosten im Vergleich zu den regulären Dataflow-Preisen in Rechnung gestellt. Sie weisen Dataflow mit dem Parameter FlexRS an, FlexRS für Ihre automatisch skalierten Batchpipelines zu verwenden.
Verarbeitete Dataflow Shuffle-Daten
Für Batchpipelines bietet Dataflow ein hoch skalierbares Feature, Dataflow Shuffle, das Daten außerhalb von Workern nach dem Zufallsprinzip sortiert. Weitere Informationen finden Sie unter Dataflow Shuffle.
Die Gebühren für Dataflow Shuffle richten sich nach der Datenmenge, die während des Shuffle-Prozesses verarbeitet wird.
Streaming Engine-Preise
Bei Streamingpipelines verschiebt Dataflow Streaming Engine die Streaming-Shuffle- und Statusverarbeitung aus den Worker-VMs in das Dienst-Back-End von Dataflow. Weitere Informationen finden Sie unter Streaming Engine.
Streaming Engine-Recheneinheiten
Bei ressourcenbasierter Abrechnung werden Streaming Engine-Ressourcen in Streaming Engine-Recheneinheiten gemessen. Dataflow misst die von jedem Job verwendeten Streaming Engine-Ressourcen und stellt die Abrechnung dann anhand der von diesem Job insgesamt verwendeten Ressourcen in Rechnung. Informationen zum Aktivieren der ressourcenbasierten Abrechnung für einen Job finden Sie unter Ressourcenbasierte Abrechnung verwenden. Wenn Sie die ressourcenbasierte Abrechnung verwenden, werden vorhandene Rabatte automatisch angewendet.
Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden die Kosten basierend auf den von jedem Job insgesamt verwendeten Ressourcen in Rechnung gestellt. Dabei wird jedoch die SKU Data Compute Unit (DCU) anstelle der SKU der Streaming Engine Compute Unit verwendet.
Verarbeitete Streaming Engine-Daten (Legacy)
Dataflow unterstützt weiterhin die Legacy-Datenabrechnung. Wenn Sie die ressourcenbasierte Abrechnung nicht aktivieren, werden Jobs über die datenverarbeitete Abrechnung abgerechnet.
Bei der Abrechnung der Streaming Engine-Datenverarbeitung wird die Nutzung nach dem Volumen der verarbeiteten Streamingdaten gemessen. Dies hängt von den folgenden Faktoren ab:
- Die in die Streamingpipeline aufgenommene Datenmenge
- Die Komplexität der Pipeline
- Die Anzahl der Pipelinephasen mit Shuffle-Vorgang oder zustandsorientierten gsutils
Beispiele für verarbeitete Byte sind:
- Eingabeflüsse aus Datenquellen
- Datenflüsse von einer zusammengeführten Pipelinephase zu einer anderen zusammengeführten Phase
- Datenflüsse, die in einem benutzerdefinierten Status beibehalten oder für Windowing verwendet werden
- Nachrichten an Datensenken wie Pub/Sub oder BigQuery ausgeben
Preise für Dataflow-Rechenressourcen – Batch und FlexRS
Die folgende Tabelle enthält Preisdetails für Worker-Ressourcen und Shuffle-Daten, die für Batch- und FlexRS-Jobs verarbeitet werden.
1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle nicht verwendet wird, 25 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle verwendet wird
2 FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern
Preise für Dataflow-Rechenressourcen – Streaming
Die folgende Tabelle enthält Preisdetails für Worker-Ressourcen, verarbeitete Streaming Engine-Daten (Legacy) und Streaming Engine-Recheneinheiten für Streamingjobs.
3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 400 GB nichtflüchtiger Speicher, wenn Streaming Engine nicht verwendet wird, 30 GB nichtflüchtiger Speicher, wenn Streaming Engine verwendet wird Der Dataflow-Dienst ist derzeit beim Ausführen eines Streamingjobs auf 15 nichtflüchtige Speicher pro Worker-Instanz beschränkt. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist die minimale Ressourcenzuweisung.
4 Die Preise für Dataflow Shuffle richten sich nach den Volumenanpassungen für die Datenmenge, die während der Lese- und Schreibvorgänge während der Umverteilung des Datasets verarbeitet wird. Weitere Informationen finden Sie unter Preisangaben zu Dataflow Shuffle. Die Preise für Dataflow Shuffle gelten nicht für Streaming Engine-Jobs mit ressourcenbasierter Abrechnung.
5 Streaming Engine-Recheneinheiten: für Streamingjobs, die Streaming Engine und das ressourcenbasierte Abrechnungsmodell verwenden. Diesen Jobs werden keine Daten in Rechnung gestellt, die während des Shuffle-Verfahrens verarbeitet werden.
Volumenanpassungen für verarbeitete Dataflow Shuffle-Daten
Die Gebühren werden pro Dataflow-Job durch Volumenanpassungen auf die Gesamtmenge der während Dataflow Shuffle-Vorgänge verarbeiteten Daten berechnet. Ihre tatsächliche Abrechnung für die verarbeiteten Dataflow Shuffle-Daten entspricht dem Standardpreis für ein kleineres Datenvolumen als dem, das in einem Dataflow-Job verarbeitet wurde. Diese Differenz führt dazu, dass der Messwert Abrechenbare Shuffle-Daten verarbeitet kleiner ist als der Messwert Gesamtzahl der verarbeiteten Shuffle-Daten.
In der folgenden Tabelle wird erläutert, wie diese Gutschriften angewendet werden:
Verarbeitete Dataflow Shuffle-Daten | Abrechnungskorrektur |
Erste 250 GB | 75 % |
Nächste 4.870 GB | 50 % |
Weitere Daten über 5.120 GB (5 TB) | keine |
Wenn Ihre Pipeline beispielsweise 1.024 GB (1 TB) an verarbeiteten Dataflow Shuffle-Daten insgesamt verarbeitet, wird der abrechenbare Betrag so berechnet:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
Wenn die Pipeline insgesamt 10.240 GB (10 TB) an verarbeiteten Dataflow Shuffle-Daten umfasst, wird folgende kostenpflichtige Datenmenge berechnet:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Preise für Dataflow Prime-Computing-Ressourcen
Dataflow Prime ist eine Datenverarbeitungsplattform, die auf Dataflow aufbaut, um die Ressourcennutzung und die verteilte Diagnose zu verbessern.
Die von einem Dataflow Prime-Job verwendeten Rechenressourcen werden nach der Anzahl der Datenrecheneinheiten (Data Compute Units, DCUs) berechnet. DCUs stellen die Rechenressourcen dar, die zum Ausführen Ihrer Pipeline zugewiesen werden. Andere Dataflow-Ressourcen, die von Dataflow Prime-Jobs verwendet werden, z. B. nichtflüchtiger Speicher, GPUs und Snapshots, werden separat abgerechnet.
Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Compute Engine-Seite Regionen und Zonen.
Datenrecheneinheit
Eine Data Compute Unit (DCU) ist eine Einheit zur Dataflow-Nutzungsmessung, die die Anzahl der von Ihren Jobs verbrauchten Rechenressourcen verfolgt. Zu den von DCUs erfassten Ressourcen gehören vCPU, Arbeitsspeicher, verarbeitete Dataflow Shuffle-Daten (für Batchjobs) und verarbeitete Streaming Engine-Daten (für Streamingjobs). Bei Jobs, die mehr Ressourcen verbrauchen, ist die DCU-Nutzung höher als bei Jobs, die weniger Ressourcen verbrauchen. Eine DCU ist mit den Ressourcen vergleichbar, die von einem Dataflow-Job verwendet werden, der eine Stunde lang auf einem 4-GB-Worker mit einer vCPU ausgeführt wird.
Abrechnung für Data Compute Unit
Ihnen wird die Gesamtzahl der von Ihrem Job verbrauchten DCUs in Rechnung gestellt. Der Preis für eine einzelne DCU hängt davon ab, ob Sie einen Batch- oder einen Streamingjob haben. Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die insgesamt verwendeten Ressourcen und nicht der Byteprozess in Rechnung gestellt.
Nutzung von Datenrecheneinheiten optimieren
Sie können die Anzahl der DCUs für Ihre Jobs nicht festlegen. DCUs werden von Dataflow Prime gezählt. Sie können jedoch die Anzahl der verbrauchten DCUs reduzieren, indem Sie die folgenden Aspekte Ihres Jobs verwalten:
- Arbeitsspeichernutzung reduzieren
- Reduzieren der Menge der in den Schritten des Zufallsmix verarbeiteten Daten durch den Einsatz von Filtern, Kombinatoren und effizienten Codierern
Verwenden Sie zum Ermitteln dieser Optimierungen die Dataflow-Monitoring-Oberfläche und die Oberfläche für Ausführungsdetails.
Wie unterscheiden sich die Dataflow Prime-Preise von den Dataflow-Preisen?
In Dataflow werden Ihnen die unterschiedlichen Ressourcen in Rechnung gestellt, die Ihre Jobs verbrauchen, z. B. vCPUs, Arbeitsspeicher, nichtflüchtiger Speicher und die von Dataflow Shuffle oder Streaming Engine verarbeitete Datenmenge.
Datenrecheneinheiten konsolidieren alle Ressourcen außer dem Speicher in einer einzigen Messeinheit. Ihnen werden die Ressourcen des nichtflüchtigen Speichers und die Anzahl der verbrauchten DCUs je nach Jobtyp, Batch oder Streaming in Rechnung gestellt. Weitere Informationen finden Sie unter Dataflow Prime verwenden.
Was passiert mit meinen vorhandenen Jobs, für die das Dataflow-Preismodell gilt?
Vorhandene Batch- und Streamingjobs werden weiterhin über das Dataflow-Modell in Rechnung gestellt. Wenn Sie Ihre Jobs für die Verwendung von Dataflow Prime aktualisieren, wird für die Jobs das Dataflow Prime-Preismodell verwendet. Dabei werden die Ressourcen des nichtflüchtigen Speichers und die verbrauchten DCUs in Rechnung gestellt.
Weitere Dataflow-Ressourcen
Speicher, GPUs, Snapshots und andere Ressourcen werden für Dataflow und Dataflow Prime auf dieselbe Weise abgerechnet.
Preise für Speicherressourcen
Speicherressourcen werden für Streaming-, Batch- und FlexRS-Jobs zum gleichen Preis abgerechnet. Sie können die Pipelineoptionen verwenden, um die standardmäßige Laufwerksgröße oder den standardmäßigen Laufwerkstyp zu ändern. Dataflow Prime stellt den nichtflüchtigen Speicher separat gemäß den Preisen in der folgenden Tabelle in Rechnung.
Der Dataflow-Dienst ist derzeit beim Ausführen eines Streamingjobs auf 15 nichtflüchtige Speicher pro Worker-Instanz beschränkt. Jeder nichtflüchtige Speicher ist lokal einer einzelnen virtuellen Compute Engine-Maschine zugeordnet. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist das minimale Ressourcenkontingent.
Bei Jobs mit Streaming Engine werden Bootlaufwerke mit 30 GB verwendet. Bei Jobs mit Dataflow Shuffle werden 25-GB-Bootlaufwerke verwendet. Bei Jobs, die diese Angebote nicht verwenden, beträgt die Standardgröße jedes nichtflüchtigen Speichers 250 GB im Batchmodus und 400 GB im Streamingmodus.
Die Compute Engine-Nutzung basiert auf der durchschnittlichen Anzahl von Workern, während die Nutzung nichtflüchtiger Speicher auf dem genauen Wert von --maxNumWorkers
basiert. Nichtflüchtige Speicher werden so neu verteilt, dass jedem Worker die gleiche Anzahl von Laufwerken angehängt ist.
Preise für GPU-Ressourcen
GPU-Ressourcen werden für Streaming- und Batchjobs zum gleichen Preis abgerechnet. FlexRS unterstützt derzeit keine GPUs. Informationen zu verfügbaren Regionen und Zonen für GPUs finden Sie unter Verfügbarkeit von GPU-Regionen und -Zonen in der Compute Engine-Dokumentation.
Snapshots
Mit Snapshots können Sie den Pipelinestatus speichern und wiederherstellen, um die Zuverlässigkeit Ihrer Streamingpipelines zu verwalten. Die Snapshot-Nutzung wird nach dem gespeicherten Datenvolumen abgerechnet und hängt von den folgenden Faktoren ab:
- Die in die Streamingpipeline aufgenommene Datenmenge
- Ihre Windowing-Logik
- Anzahl der Pipelinephasen
Sie können mit der Dataflow-Konsole oder der Google Cloud CLI einen Snapshot Ihres Streamingjobs erstellen. Für die Erstellung eines Auftrags aus Ihrem Snapshot zur Wiederherstellung des Zustands Ihrer Pipeline fallen keine zusätzlichen Kosten an. Weitere Informationen finden Sie unter Dataflow-Snapshots verwenden.
Snapshot-Preise
Confidential VM
Confidential VM for Dataflow verschlüsselt Daten, die auf Compute Engine-VMs für Worker verwendet werden. Weitere Informationen finden Sie unter Confidential VM – Übersicht.
Bei Verwendung von Confidential VM für Dataflow fallen zusätzliche Pauschalkosten pro vCPU und GB an.
Confidential VM - Preise
Die Preise sind global und ändern sich nicht je nach Google Cloud-Region.
Nicht-Dataflow-Ressourcen
Zusätzlich zur Dataflow-Nutzung kann ein Job weitere Ressourcen nutzen, die jeweils nach ihren eigenen Preisen abgerechnet werden, darunter:
-
Dataflow-Jobs verwenden Cloud Storage, um während der Pipelineausführung temporäre Dateien zu speichern. Deaktivieren Sie das Feature für vorläufiges Löschen für Buckets, die Ihre Dataflow-Jobs zum temporären Speichern verwenden, um zu vermeiden, dass unnötige Speicherkosten in Rechnung gestellt werden. Weitere Informationen finden Sie unter Richtlinie für vorläufiges Löschen aus einem Bucket entfernen.
-
Sie können Logs an andere Ziele weiterleiten oder Logs von der Aufnahme ausschließen. Informationen zum Optimieren des Logvolumens für Ihre Dataflow-Jobs finden Sie unter Dataflow-Logvolumen steuern.
Ressourcennutzung ansehen
Die mit einem Job verknüpften vCPU-, Arbeitsspeicher- und nichtflüchtigen Speicherressourcen können Sie im Bereich Jobinformationen unter Ressourcenmesswerte einsehen. Sie können die folgenden Messwerte auf der Dataflow-Monitoring-Oberfläche verfolgen:
- vCPU-Gesamtzeit
- Gesamtzeit der Arbeitsspeichernutzung
- Gesamtnutzungszeit des nichtflüchtigen Speichers
- Gesamte verarbeitete Streamingdaten
- Insgesamt verarbeitete Shuffle-Daten
- Verarbeitete kostenpflichtige Shuffle-Daten
Anhand des Messwerts Verarbeitete Shuffle-Daten insgesamt können Sie die Leistung der Pipeline bewerten. Anhand des Messwerts Verarbeitete abrechenbare Shuffle-Daten lassen sich die Kosten des Dataflow-Jobs ermitteln.
Bei Dataflow Prime können Sie die Gesamtzahl der von einem Job genutzten DCUs im Bereich Jobinfo unter Ressourcenmesswerte ansehen.
Preisrechner
Mit dem Preisrechner der Google Cloud können Sie sich ein Bild davon machen, wie sich Ihre Rechnung zusammensetzt.
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
Nächste Schritte
- Lesen Sie die Dataflow-Dokumentation.
- Erste Schritte mit Dataflow
- Preisrechner ausprobieren
- Informationen zu Dataflow-Lösungen und -Anwendungsfällen