Dataflow – Preise

Auf dieser Seite werden die Preise für Dataflow beschrieben. Informationen zu den Preisen anderer Produkte finden Sie in der Preisliste.

Auf unserer Seite zu Rabatten für zugesicherte Nutzung erfahren Sie, wie Sie bei einer dreijährigen Zusicherung 40% und bei einer einjährigen Zusicherung 20% sparen können.

Übersicht

Die Dataflow-Nutzung wird nach den von Ihren Jobs verwendeten Ressourcen abgerechnet. Je nach verwendetem Preismodell werden die Ressourcen unterschiedlich gemessen und in Rechnung gestellt.

Dataflow-Rechenressourcen Dataflow Prime-Rechenressourcen
Datenrecheneinheiten (Data Compute Units, DCUs)
(Batch und Streaming)

Weitere Dataflow-Ressourcen, die für alle Jobs in Rechnung gestellt werden, sind nichtflüchtiger Speicher, GPUs und Snapshots.

Für den Dataflow-Job können Ressourcen aus anderen Diensten verwendet werden. Mit Dataflow verwendete Dienste können unter anderem BigQuery, Pub/Sub, Cloud Storage und Cloud Logging umfassen.

Obwohl der Preis auf Stundenbasis basiert, wird die Nutzung von Dataflow in Schritten von pro Sekunde und Job abgerechnet. Die Nutzung wird in Stunden angegeben, damit bei einer sekundengenauen Nutzung ein Preis pro Stunde abgerechnet wird. Beispiel: 30 Minuten sind 0, 5 Stunden. Worker und Jobs können Ressourcen wie in den folgenden Abschnitten beschrieben verbrauchen.

Für zukünftige Releases von Dataflow gelten möglicherweise andere Servicegebühren oder andere Bündelungsmöglichkeiten für zugehörige Dienste.

Dataflow-Rechenressourcen

Die Dataflow-Abrechnung für Rechenressourcen umfasst die folgenden Komponenten:

Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Compute Engine-Seite Regionen und Zonen.

Worker-CPU und -Arbeitsspeicher

Jeder Dataflow-Job verwendet mindestens einen Dataflow-Worker. Der Dataflow-Dienst bietet zwei Worker-Typen: Batch und Streaming. Für Batch- und Streaming-Worker gelten unterschiedliche Servicegebühren.

Dataflow-Worker verbrauchen die folgenden Ressourcen, die jeweils pro Sekunde abgerechnet werden:

  • CPU
  • Speicher

Batch- und Streaming-Worker sind spezialisierte Ressourcen, die Compute Engine nutzen. Allerdings gibt ein Dataflow-Job keine Compute Engine-Abrechnung für Compute Engine-Ressourcen aus, die vom Dataflow-Dienst verwaltet werden. Stattdessen umfassen Dataflow-Servicegebühren die Nutzung dieser Compute Engine-Ressourcen.

Sie können die standardmäßige Anzahl der Worker für einen Job überschreiben. Wenn Sie Autoscaling verwenden, können Sie die maximale Anzahl der Worker angeben, die einem Job zugewiesen werden soll. Worker und entsprechende Ressourcen werden automatisch hinzugefügt und entfernt, je nachdem, ob Autoscaling aktiviert ist.

Darüber hinaus können Sie mit Pipelineoptionen die jedem Worker zugewiesenen Standardressourceneinstellungen wie Maschinentyp, Laufwerkstyp und Laufwerksgröße überschreiben, die GPUs verwenden.

FlexRS

Dataflow bietet eine Option mit ermäßigten CPU- und Speicherpreisen für die Batchverarbeitung. Flexible Resource Scheduling (FlexRS) vereint reguläre VMs und VMs auf Abruf in einem einzigen Dataflow-Worker-Pool, sodass Nutzer Zugriff auf kostengünstigere Verarbeitungsressourcen erhalten. FlexRS verzögert außerdem die Ausführung eines Batch-Dataflow-Jobs innerhalb eines Zeitraums von 6 Stunden, um den besten Zeitpunkt für den Start des Jobs je nach den verfügbaren Ressourcen zu ermitteln.

Obwohl Dataflow zum Ausführen eines FlexRS-Jobs eine Kombination von Workern verwendet, wird Ihnen unabhängig vom Worker-Typ ein einheitlicher ermäßigter Preis von etwa 40% auf CPU- und Arbeitsspeicherkosten im Vergleich zu den regulären Dataflow-Preisen berechnet. Sie weisen Dataflow mit dem Parameter FlexRS an, FlexRS für Ihre automatisch skalierten Batchpipelines zu verwenden.

Verarbeitete Dataflow Shuffle-Daten

Für Batchpipelines bietet Dataflow ein hoch skalierbares Feature namens Dataflow Shuffle, das Daten außerhalb der Worker umverteilt. Weitere Informationen finden Sie unter Dataflow Shuffle.

Die Abrechnung für Dataflow Shuffle erfolgt nach der Menge der während des Shuffle verarbeiteten Daten.

Streaming Engine-Preise

Bei Streamingpipelines verschiebt Dataflow Streaming Engine Streaming-Shuffle und Statusverarbeitung aus den Worker-VMs in das Dataflow-Dienst-Back-End. Weitere Informationen finden Sie unter Streaming Engine.

Streaming Engine-Recheneinheiten

Bei der ressourcenbasierten Abrechnung werden Streaming Engine-Ressourcen in Streaming Engine-Recheneinheiten gemessen. Dataflow erfasst die Streaming Engine-Ressourcen, die die einzelnen Jobs verwenden, und stellt die Abrechnung dann auf Grundlage der insgesamt von diesem Job verwendeten Ressourcen in Rechnung. Informationen zum Aktivieren der ressourcenbasierten Abrechnung für einen Job finden Sie unter Ressourcenbasierte Abrechnung verwenden. Wenn Sie die ressourcenbasierte Abrechnung verwenden, werden vorhandene Rabatte automatisch angewendet.

Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die Kosten auf Grundlage der Gesamtressourcen jedes Jobs in Rechnung gestellt. Statt der SKU der Streaming Engine-Recheneinheit wird jedoch die SKU Data Compute Unit (DCU) verwendet.

Verarbeitete Streaming Engine-Daten (Legacy)

Dataflow unterstützt weiterhin die Legacy-Datenverarbeitung. Wenn Sie die ressourcenbasierte Abrechnung nicht aktivieren, werden Jobs mithilfe der datenverarbeiteten Abrechnung abgerechnet.

Bei der Abrechnung der von Streaming Engine verarbeiteten Daten wird die Nutzung anhand des Volumens der verarbeiteten Streamingdaten gemessen, die von den folgenden Faktoren abhängt:

  • Das in die Streamingpipeline aufgenommene Datenvolumen
  • Komplexität der Pipeline
  • Die Anzahl der Pipelinephasen mit Shuffle-Vorgang oder zustandsorientierten DoFns

Hier einige Beispiele für verarbeitete Byte:

  • Eingabeflüsse aus Datenquellen
  • Datenflüsse von einer zusammengefassten Pipelinephase zu einer anderen zusammengefassten Phase
  • Datenflüsse, die in einem benutzerdefinierten Zustand beibehalten oder für Windowing verwendet werden
  • Nachrichten an Datensenken ausgeben, z. B. in Pub/Sub oder BigQuery

Preise für Dataflow-Computing-Ressourcen – Batch und FlexRS

Die folgende Tabelle enthält Preisangaben für Worker-Ressourcen und Shuffle-Daten, die für Batch- und FlexRS-Jobs verarbeitet werden.

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle nicht verwendet wird, 25 GB nichtflüchtiger Speicher bei Verwendung von Dataflow Shuffle

2 FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern

Preise für Dataflow-Computing-Ressourcen – Streaming

Die folgende Tabelle enthält Preisdetails für Worker-Ressourcen, verarbeitete Streaming Engine-Daten (Legacy) und Streaming Engine-Recheneinheiten für Streamingjobs.

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 400 GB nichtflüchtiger Speicher, wenn Streaming Engine nicht verwendet wird, 30 GB nichtflüchtiger Speicher bei Verwendung von Streaming Engine. Der Dataflow-Dienst ist derzeit beim Ausführen eines Streamingjobs pro Worker-Instanz auf 15 nichtflüchtige Speicher beschränkt. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist die minimale Ressourcenzuweisung.

4 Die Preise für Dataflow Shuffle basieren auf Volumenanpassungen, die auf die Datenmenge angewendet werden, die während Lese- und Schreibvorgängen beim Umwandeln des Datasets verarbeitet wird. Weitere Informationen finden Sie unter Preisangaben zu Dataflow Shuffle. Dataflow Shuffle-Preise gelten nicht für Streaming Engine-Jobs, die eine ressourcenbasierte Abrechnung verwenden.

5 Streaming Engine-Recheneinheiten: für Streamingjobs, die Streaming Engine und das ressourcenbasierte Abrechnungsmodell verwenden. Für diese Jobs werden die während des Shuffle verarbeiteten Daten nicht in Rechnung gestellt.

Volumenanpassungen für verarbeitete Dataflow Shuffle-Daten

Die Gebühren werden pro Dataflow-Job über Volumenanpassungen berechnet, die auf die Gesamtmenge der während Dataflow Shuffle-Vorgänge verarbeiteten Daten angewendet werden. Ihre tatsächliche Abrechnung für die verarbeiteten Dataflow Shuffle-Daten entspricht dem Standardpreis für ein kleineres Datenvolumen als dem, das in einem Dataflow-Job verarbeitet wurde. Dieser Unterschied führt dazu, dass der Messwert Abrechenbare Shuffle-Daten verarbeitet kleiner ist als der Messwert Insgesamt verarbeitete Shuffle-Daten.

In der folgenden Tabelle wird erläutert, wie diese Gutschriften angewendet werden:

Verarbeitete Dataflow Shuffle-Daten Abrechnungskorrektur
Erste 250 GB 75 %
Nächste 4.870 GB 50 %
Weitere Daten über 5.120 GB (5 TB) keine

Wenn Ihre Pipeline beispielsweise insgesamt 1.024 GB (1 TB) an verarbeiteten Dataflow Shuffle-Daten ergibt, wird der abrechenbare Betrag so berechnet:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Wenn Ihre Pipeline insgesamt 10.240 GB (10 TB) verarbeitete Dataflow Shuffle-Daten umfasst, wird die abrechenbare Datenmenge so berechnet:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Preise für Dataflow Prime-Computing-Ressourcen

Dataflow Prime ist eine Datenverarbeitungsplattform, die auf Dataflow aufbaut, um die Ressourcennutzung und die verteilte Diagnose zu verbessern.

Die von einem Dataflow Prime-Job verwendeten Rechenressourcen werden nach der Anzahl der Datenberechnungseinheiten (Data Compute Units, DCUs) berechnet. DCUs stellen die Rechenressourcen dar, die zum Ausführen Ihrer Pipeline zugewiesen werden. Weitere Dataflow-Ressourcen, die von Dataflow Prime-Jobs verwendet werden, wie nichtflüchtiger Speicher, GPUs und Snapshots, werden separat abgerechnet.

Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Compute Engine-Seite Regionen und Zonen.

Datenrecheneinheit

Eine Data Compute Unit (DCU) ist eine Dataflow-Nutzungsmessungseinheit, die die Anzahl der von Ihren Jobs verbrauchten Rechenressourcen verfolgt. Zu den von DCUs verfolgten Ressourcen gehören vCPU, Arbeitsspeicher, verarbeitete Dataflow Shuffle-Daten (für Batchjobs) und verarbeitete Streaming Engine-Daten (für Streamingjobs). Jobs, die mehr Ressourcen verbrauchen, haben eine höhere DCU-Nutzung als Jobs, die weniger Ressourcen verbrauchen. Ein DCU ist vergleichbar mit den Ressourcen, die von einem Dataflow-Job verwendet werden, der eine Stunde auf einem Worker mit 1 vCPU und 4 GB ausgeführt wird.

Abrechnung für Data Compute Unit

Ihnen wird die Gesamtzahl der von Ihrem Job genutzten DCUs in Rechnung gestellt. Der Preis für einen einzelnen DCU hängt davon ab, ob Sie einen Batch- oder Streamingjob haben. Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die insgesamt verwendeten Ressourcen anstelle des Byteprozesses in Rechnung gestellt.

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

Nutzung von Datenrecheneinheiten optimieren

Sie können die Anzahl der DCUs für Ihre Jobs nicht festlegen. DCUs werden von Dataflow Prime gezählt. Sie können jedoch die Anzahl der verbrauchten DCUs reduzieren, indem Sie die folgenden Aspekte Ihres Jobs verwalten:

  • Arbeitsspeichernutzung reduzieren
  • Reduzieren der verarbeiteten Datenmenge bei der Umverteilung von Schritten mithilfe von Filtern, Kombinierern und effizienten Codierern

Verwenden Sie zum Identifizieren dieser Optimierungen die Dataflow-Monitoring-Oberfläche und die Oberfläche für Ausführungsdetails.

Wie unterscheidet sich die Preisgestaltung von Dataflow Prime von den Dataflow-Preisen?

In Dataflow werden Ihnen die unterschiedlichen Ressourcen in Rechnung gestellt, die Ihre Jobs nutzen, z. B. vCPUs, Arbeitsspeicher, nichtflüchtiger Speicher und die von Dataflow Shuffle oder Streaming Engine verarbeitete Datenmenge.

Datenrecheneinheiten konsolidieren alle Ressourcen mit Ausnahme des Speichers in einer einzigen Metering-Einheit. Ihnen werden die Ressourcen des nichtflüchtigen Speichers und die Anzahl der verbrauchten DCUs je nach Jobtyp, Batch oder Streaming in Rechnung gestellt. Weitere Informationen finden Sie unter Dataflow Prime verwenden.

Was geschieht mit meinen vorhandenen Jobs, für die das Dataflow-Preismodell verwendet wird?

Ihre vorhandenen Batch- und Streamingjobs werden weiterhin mit dem Dataflow-Modell abgerechnet. Wenn Sie Ihre Jobs auf die Verwendung von Dataflow Prime aktualisieren, wird für die Jobs das Dataflow Prime-Preismodell verwendet, bei dem die Ressourcen des nichtflüchtigen Speichers und die verbrauchten DCUs in Rechnung gestellt werden.

Weitere Dataflow-Ressourcen

Speicher, GPUs, Snapshots und andere Ressourcen werden für Dataflow und Dataflow Prime auf dieselbe Weise abgerechnet.

Preise für Speicherressourcen

Speicherressourcen werden für Streaming-, Batch- und FlexRS-Jobs zum gleichen Preis abgerechnet. Mit den Pipelineoptionen können Sie die Standardgröße oder den standardmäßigen Laufwerkstyp ändern. Dataflow Prime stellt den nichtflüchtigen Speicher separat anhand der Preise in der folgenden Tabelle in Rechnung.

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

Der Dataflow-Dienst ist derzeit beim Ausführen eines Streamingjobs pro Worker-Instanz auf 15 nichtflüchtige Speicher beschränkt. Jeder nichtflüchtige Speicher ist lokal einer einzelnen virtuellen Compute Engine-Maschine zugeordnet. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist das Mindestressourcenkontingent.

Jobs mit Streaming Engine verwenden 30 GB-Bootlaufwerke. Jobs mit Dataflow Shuffle verwenden 25 GB-Bootlaufwerke. Bei Jobs, die diese Angebote nicht nutzen, beträgt die Standardgröße jedes nichtflüchtigen Speichers 250 GB im Batchmodus und 400 GB im Streamingmodus.

Die Compute Engine-Nutzung basiert auf der durchschnittlichen Anzahl von Workern, während die Nutzung nichtflüchtiger Speicher auf dem genauen Wert von --maxNumWorkers basiert. Nichtflüchtige Speicher werden so neu verteilt, dass jeder Worker die gleiche Anzahl von Laufwerken hat.

Preise für GPU-Ressourcen

GPU-Ressourcen werden für Streaming- und Batchjobs zum gleichen Preis abgerechnet. FlexRS unterstützt derzeit keine GPUs. Informationen zu verfügbaren Regionen und Zonen für GPUs finden Sie unter Verfügbarkeit von GPU-Regionen und -Zonen in der Compute Engine-Dokumentation.

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

Snapshots

Um die Zuverlässigkeit Ihrer Streamingpipelines zu verwalten, können Sie Snapshots verwenden, um den Pipelinestatus zu speichern und wiederherzustellen. Die Snapshot-Nutzung wird nach der Menge der gespeicherten Daten berechnet, die von den folgenden Faktoren abhängt:

  • Das in die Streamingpipeline aufgenommene Datenvolumen
  • Ihre Windowing-Logik
  • Anzahl der Pipelinephasen

Mit der Dataflow-Konsole oder der Google Cloud CLI können Sie einen Snapshot Ihres Streamingjobs erstellen. Für die Erstellung eines Auftrags aus Ihrem Snapshot zur Wiederherstellung des Zustands Ihrer Pipeline fallen keine zusätzlichen Kosten an. Weitere Informationen finden Sie unter Dataflow-Snapshots verwenden.

Snapshot-Preise

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

Confidential VM

Confidential VM for Dataflow verschlüsselt Daten, die auf Worker-VMs von Compute Engine verwendet werden. Weitere Informationen finden Sie unter Confidential VM – Übersicht.

Für die Verwendung von Confidential VM für Dataflow fallen zusätzliche Pauschalkosten pro vCPU und GB an.

Confidential VM - Preise

Die Preise sind global und ändern sich nicht je nach Google Cloud-Region.

Nicht-Dataflow-Ressourcen

Zusätzlich zur Dataflow-Nutzung kann ein Job folgende Ressourcen verbrauchen, die jeweils nach ihren eigenen Preisen abgerechnet werden. Dazu gehören unter anderem:

Ressourcennutzung ansehen

Die Gesamtzahl der vCPU-, Arbeitsspeicher- und nichtflüchtigen Speicherressourcen, die mit einem Job verknüpft sind, können Sie im Bereich Jobinformationen unter Ressourcenmesswerte einsehen. Sie können die folgenden Messwerte in der Dataflow-Monitoringoberfläche verfolgen:

  • vCPU-Gesamtzeit
  • Gesamtzeit für Arbeitsspeichernutzung
  • Gesamte Nutzungszeit des nichtflüchtigen Speichers
  • Gesamte verarbeitete Streamingdaten
  • Insgesamt verarbeitete Shuffle-Daten
  • Abrechenbare Shuffle-Daten verarbeitet

Sie können den Messwert Verarbeitete Shuffle-Daten insgesamt verwenden, um die Leistung Ihrer Pipeline zu bewerten, und den Messwert Verarbeitete Shuffle-Daten, um die Kosten des Dataflow-Jobs zu ermitteln.

Für Dataflow Prime können Sie die Gesamtzahl der von einem Job genutzten DCUs im Bereich Jobinfo unter Ressourcenmesswerte ansehen.

Preisrechner

Mit dem Preisrechner der Google Cloud können Sie sich ein Bild davon machen, wie sich Ihre Rechnung zusammensetzt.

Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

Nächste Schritte

Individuelles Angebot einholen

Mit den „Pay as you go“-Preisen von Google Cloud bezahlen Sie nur für die Dienste, die Sie nutzen. Wenden Sie sich an unser Vertriebsteam, wenn Sie ein individuelles Angebot für Ihr Unternehmen erhalten möchten.
Vertrieb kontaktieren