Dataflow – Preise

Auf dieser Seite werden die Preise für Dataflow beschrieben. Informationen zu den Preisen anderer Produkte finden Sie in der Preisliste.

Auf der Seite Rabatte für zugesicherte Nutzung können Sie nachlesen, wie Sie bei einer dreijährigen Zusicherung 40% oder bei einer einjährigen Zusicherung 20% sparen können.

Überblick

Die Dataflow-Nutzung wird für die von Ihren Jobs genutzten Ressourcen in Rechnung gestellt. Je nach Preismodell, das Sie verwenden, werden Ressourcen unterschiedlich gemessen und abgerechnet.

Dataflow-Rechenressourcen Dataflow Prime-Rechenressourcen
Datenrecheneinheiten (Data Compute Units, DCUs)
(Batch und Streaming)

Weitere Dataflow-Ressourcen, die für alle Jobs in Rechnung gestellt werden, sind nichtflüchtiger Speicher, GPUs und Snapshots.

Ressourcen aus anderen Diensten können für den Dataflow-Job verwendet werden. Zu den mit Dataflow verwendeten Diensten gehören unter anderem BigQuery, Pub/Sub, Cloud Storage und Cloud Logging.

Der Preis wird zwar pro Stunde angegeben, die Abrechnung von Dataflow erfolgt jedoch pro Sekunde und Job. Die Nutzung wird in Stunden angegeben, um einen stündlichen Preis für die sekundengenaue Nutzung zu erhalten. 30 Minuten sind beispielsweise 0, 5 Stunden. Worker und Jobs können Ressourcen wie in den folgenden Abschnitten beschrieben nutzen.

Für zukünftige Releases von Dataflow gelten möglicherweise andere Servicegebühren oder andere Bündelungsmöglichkeiten für zugehörige Dienste.

Dataflow-Rechenressourcen

Die Dataflow-Abrechnung für Rechenressourcen umfasst die folgenden Komponenten:

Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Compute Engine-Seite Regionen und Zonen.

Worker-CPU und -Arbeitsspeicher

Jeder Dataflow-Job verwendet mindestens einen Dataflow-Worker. Der Dataflow-Dienst bietet zwei Worker-Typen: Batch und Streaming. Für Batch- und Streaming-Worker fallen separate Servicegebühren an.

Dataflow-Worker verbrauchen die folgenden Ressourcen, die jeweils pro Sekunde abgerechnet werden:

  • CPU
  • Arbeitsspeicher

Batch- und Streaming-Worker sind spezialisierte Ressourcen, die Compute Engine nutzen. Ein Dataflow-Job gibt jedoch keine Compute Engine-Abrechnung für Compute Engine-Ressourcen aus, die vom Dataflow-Dienst verwaltet werden. Stattdessen wird die Nutzung dieser Compute Engine-Ressourcen in den Dataflow-Dienstgebühren berücksichtigt.

Sie können die standardmäßige Anzahl der Worker für einen Job überschreiben. Wenn Sie Autoscaling verwenden, können Sie die maximale Anzahl von Workern angeben, die einem Job zugewiesen werden sollen. Worker und entsprechende Ressourcen werden automatisch hinzugefügt und entfernt, wenn Autoscaling aktiviert ist.

Darüber hinaus können Sie mit Pipeline-Optionen die Standardressourceneinstellungen wie Maschinentyp, Laufwerkstyp und Laufwerksgröße überschreiben, die jedem Worker zugewiesen sind und GPUs verwenden.

FlexRS

Dataflow bietet eine Option mit ermäßigten CPU- und Arbeitsspeicherpreisen für die Batchverarbeitung. Flexible Resource Scheduling (FlexRS) vereint reguläre VMs und VMs auf Abruf in einem einzigen Dataflow-Worker-Pool, sodass Nutzer Zugriff auf kostengünstigere Verarbeitungsressourcen erhalten. FlexRS verzögert außerdem die Ausführung eines Batch-Dataflow-Jobs innerhalb eines Zeitraums von 6 Stunden, um den besten Zeitpunkt für den Start des Jobs je nach den verfügbaren Ressourcen zu ermitteln.

Obwohl Dataflow eine Kombination von Workern zum Ausführen eines FlexRS-Jobs verwendet, wird Ihnen unabhängig vom Worker-Typ ein einheitlicher ermäßigter Preis von etwa 40% für CPU- und Arbeitsspeicherkosten im Vergleich zu den regulären Dataflow-Preisen in Rechnung gestellt. Sie weisen Dataflow mit dem Parameter FlexRS an, FlexRS für Ihre automatisch skalierten Batchpipelines zu verwenden.

Verarbeitete Dataflow Shuffle-Daten

Für Batchpipelines bietet Dataflow ein hoch skalierbares Feature, Dataflow Shuffle, das Daten außerhalb von Workern nach dem Zufallsprinzip sortiert. Weitere Informationen finden Sie unter Dataflow Shuffle.

Die Gebühren für Dataflow Shuffle richten sich nach der Datenmenge, die während des Shuffle-Prozesses verarbeitet wird.

Streaming Engine-Preise

Bei Streamingpipelines verschiebt Dataflow Streaming Engine die Streaming-Shuffle- und Statusverarbeitung aus den Worker-VMs in das Dienst-Back-End von Dataflow. Weitere Informationen finden Sie unter Streaming Engine.

Streaming Engine-Recheneinheiten

Bei ressourcenbasierter Abrechnung werden Streaming Engine-Ressourcen in Streaming Engine-Recheneinheiten gemessen. Dataflow misst die von jedem Job verwendeten Streaming Engine-Ressourcen und stellt die Abrechnung dann anhand der von diesem Job insgesamt verwendeten Ressourcen in Rechnung. Informationen zum Aktivieren der ressourcenbasierten Abrechnung für einen Job finden Sie unter Ressourcenbasierte Abrechnung verwenden. Wenn Sie die ressourcenbasierte Abrechnung verwenden, werden vorhandene Rabatte automatisch angewendet.

Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden die Kosten basierend auf den von jedem Job insgesamt verwendeten Ressourcen in Rechnung gestellt. Dabei wird jedoch die SKU Data Compute Unit (DCU) anstelle der SKU der Streaming Engine Compute Unit verwendet.

Verarbeitete Streaming Engine-Daten (Legacy)

Dataflow unterstützt weiterhin die Legacy-Datenabrechnung. Wenn Sie die ressourcenbasierte Abrechnung nicht aktivieren, werden Jobs über die datenverarbeitete Abrechnung abgerechnet.

Bei der Abrechnung der Streaming Engine-Datenverarbeitung wird die Nutzung nach dem Volumen der verarbeiteten Streamingdaten gemessen. Dies hängt von den folgenden Faktoren ab:

  • Die in die Streamingpipeline aufgenommene Datenmenge
  • Die Komplexität der Pipeline
  • Die Anzahl der Pipelinephasen mit Shuffle-Vorgang oder zustandsorientierten gsutils

Beispiele für verarbeitete Byte sind:

  • Eingabeflüsse aus Datenquellen
  • Datenflüsse von einer zusammengeführten Pipelinephase zu einer anderen zusammengeführten Phase
  • Datenflüsse, die in einem benutzerdefinierten Status beibehalten oder für Windowing verwendet werden
  • Nachrichten an Datensenken wie Pub/Sub oder BigQuery ausgeben

Preise für Dataflow-Rechenressourcen – Batch und FlexRS

Die folgende Tabelle enthält Preisdetails für Worker-Ressourcen und Shuffle-Daten, die für Batch- und FlexRS-Jobs verarbeitet werden.

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle nicht verwendet wird, 25 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle verwendet wird

2 FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern

Preise für Dataflow-Rechenressourcen – Streaming

Die folgende Tabelle enthält Preisdetails für Worker-Ressourcen, verarbeitete Streaming Engine-Daten (Legacy) und Streaming Engine-Recheneinheiten für Streamingjobs.

Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 400 GB nichtflüchtiger Speicher, wenn Streaming Engine nicht verwendet wird, 30 GB nichtflüchtiger Speicher, wenn Streaming Engine verwendet wird Der Dataflow-Dienst ist derzeit beim Ausführen eines Streamingjobs auf 15 nichtflüchtige Speicher pro Worker-Instanz beschränkt. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist die minimale Ressourcenzuweisung.

4 Die Preise für Dataflow Shuffle richten sich nach den Volumenanpassungen für die Datenmenge, die während der Lese- und Schreibvorgänge während der Umverteilung des Datasets verarbeitet wird. Weitere Informationen finden Sie unter Preisangaben zu Dataflow Shuffle. Die Preise für Dataflow Shuffle gelten nicht für Streaming Engine-Jobs mit ressourcenbasierter Abrechnung.

5 Streaming Engine-Recheneinheiten: für Streamingjobs, die Streaming Engine und das ressourcenbasierte Abrechnungsmodell verwenden. Diesen Jobs werden keine Daten in Rechnung gestellt, die während des Shuffle-Verfahrens verarbeitet werden.

Volumenanpassungen für verarbeitete Dataflow Shuffle-Daten

Die Gebühren werden pro Dataflow-Job durch Volumenanpassungen auf die Gesamtmenge der während Dataflow Shuffle-Vorgänge verarbeiteten Daten berechnet. Ihre tatsächliche Abrechnung für die verarbeiteten Dataflow Shuffle-Daten entspricht dem Standardpreis für ein kleineres Datenvolumen als dem, das in einem Dataflow-Job verarbeitet wurde. Diese Differenz führt dazu, dass der Messwert Abrechenbare Shuffle-Daten verarbeitet kleiner ist als der Messwert Gesamtzahl der verarbeiteten Shuffle-Daten.

In der folgenden Tabelle wird erläutert, wie diese Gutschriften angewendet werden:

Verarbeitete Dataflow Shuffle-Daten Abrechnungskorrektur
Erste 250 GB 75 %
Nächste 4.870 GB 50 %
Weitere Daten über 5.120 GB (5 TB) keine

Wenn Ihre Pipeline beispielsweise 1.024 GB (1 TB) an verarbeiteten Dataflow Shuffle-Daten insgesamt verarbeitet, wird der abrechenbare Betrag so berechnet:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Wenn die Pipeline insgesamt 10.240 GB (10 TB) an verarbeiteten Dataflow Shuffle-Daten umfasst, wird folgende kostenpflichtige Datenmenge berechnet:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Preise für Dataflow Prime-Computing-Ressourcen

Dataflow Prime ist eine Datenverarbeitungsplattform, die auf Dataflow aufbaut, um die Ressourcennutzung und die verteilte Diagnose zu verbessern.

Die von einem Dataflow Prime-Job verwendeten Rechenressourcen werden nach der Anzahl der Datenrecheneinheiten (Data Compute Units, DCUs) berechnet. DCUs stellen die Rechenressourcen dar, die zum Ausführen Ihrer Pipeline zugewiesen werden. Andere Dataflow-Ressourcen, die von Dataflow Prime-Jobs verwendet werden, z. B. nichtflüchtiger Speicher, GPUs und Snapshots, werden separat abgerechnet.

Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Compute Engine-Seite Regionen und Zonen.

Datenrecheneinheit

Eine Data Compute Unit (DCU) ist eine Einheit zur Dataflow-Nutzungsmessung, die die Anzahl der von Ihren Jobs verbrauchten Rechenressourcen verfolgt. Zu den von DCUs erfassten Ressourcen gehören vCPU, Arbeitsspeicher, verarbeitete Dataflow Shuffle-Daten (für Batchjobs) und verarbeitete Streaming Engine-Daten (für Streamingjobs). Bei Jobs, die mehr Ressourcen verbrauchen, ist die DCU-Nutzung höher als bei Jobs, die weniger Ressourcen verbrauchen. Eine DCU ist mit den Ressourcen vergleichbar, die von einem Dataflow-Job verwendet werden, der eine Stunde lang auf einem 4-GB-Worker mit einer vCPU ausgeführt wird.

Abrechnung für Data Compute Unit

Ihnen wird die Gesamtzahl der von Ihrem Job verbrauchten DCUs in Rechnung gestellt. Der Preis für eine einzelne DCU hängt davon ab, ob Sie einen Batch- oder einen Streamingjob haben. Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die insgesamt verwendeten Ressourcen und nicht der Byteprozess in Rechnung gestellt.

Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

Nutzung von Datenrecheneinheiten optimieren

Sie können die Anzahl der DCUs für Ihre Jobs nicht festlegen. DCUs werden von Dataflow Prime gezählt. Sie können jedoch die Anzahl der verbrauchten DCUs reduzieren, indem Sie die folgenden Aspekte Ihres Jobs verwalten:

  • Arbeitsspeichernutzung reduzieren
  • Reduzieren der Menge der in den Schritten des Zufallsmix verarbeiteten Daten durch den Einsatz von Filtern, Kombinatoren und effizienten Codierern

Verwenden Sie zum Ermitteln dieser Optimierungen die Dataflow-Monitoring-Oberfläche und die Oberfläche für Ausführungsdetails.

Wie unterscheiden sich die Dataflow Prime-Preise von den Dataflow-Preisen?

In Dataflow werden Ihnen die unterschiedlichen Ressourcen in Rechnung gestellt, die Ihre Jobs verbrauchen, z. B. vCPUs, Arbeitsspeicher, nichtflüchtiger Speicher und die von Dataflow Shuffle oder Streaming Engine verarbeitete Datenmenge.

Datenrecheneinheiten konsolidieren alle Ressourcen außer dem Speicher in einer einzigen Messeinheit. Ihnen werden die Ressourcen des nichtflüchtigen Speichers und die Anzahl der verbrauchten DCUs je nach Jobtyp, Batch oder Streaming in Rechnung gestellt. Weitere Informationen finden Sie unter Dataflow Prime verwenden.

Was passiert mit meinen vorhandenen Jobs, für die das Dataflow-Preismodell gilt?

Vorhandene Batch- und Streamingjobs werden weiterhin über das Dataflow-Modell in Rechnung gestellt. Wenn Sie Ihre Jobs für die Verwendung von Dataflow Prime aktualisieren, wird für die Jobs das Dataflow Prime-Preismodell verwendet. Dabei werden die Ressourcen des nichtflüchtigen Speichers und die verbrauchten DCUs in Rechnung gestellt.

Weitere Dataflow-Ressourcen

Speicher, GPUs, Snapshots und andere Ressourcen werden für Dataflow und Dataflow Prime auf dieselbe Weise abgerechnet.

Preise für Speicherressourcen

Speicherressourcen werden für Streaming-, Batch- und FlexRS-Jobs zum gleichen Preis abgerechnet. Sie können die Pipelineoptionen verwenden, um die standardmäßige Laufwerksgröße oder den standardmäßigen Laufwerkstyp zu ändern. Dataflow Prime stellt den nichtflüchtigen Speicher separat gemäß den Preisen in der folgenden Tabelle in Rechnung.

Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

Der Dataflow-Dienst ist derzeit beim Ausführen eines Streamingjobs auf 15 nichtflüchtige Speicher pro Worker-Instanz beschränkt. Jeder nichtflüchtige Speicher ist lokal einer einzelnen virtuellen Compute Engine-Maschine zugeordnet. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist das minimale Ressourcenkontingent.

Bei Jobs mit Streaming Engine werden Bootlaufwerke mit 30 GB verwendet. Bei Jobs mit Dataflow Shuffle werden 25-GB-Bootlaufwerke verwendet. Bei Jobs, die diese Angebote nicht verwenden, beträgt die Standardgröße jedes nichtflüchtigen Speichers 250 GB im Batchmodus und 400 GB im Streamingmodus.

Die Compute Engine-Nutzung basiert auf der durchschnittlichen Anzahl von Workern, während die Nutzung nichtflüchtiger Speicher auf dem genauen Wert von --maxNumWorkers basiert. Nichtflüchtige Speicher werden so neu verteilt, dass jedem Worker die gleiche Anzahl von Laufwerken angehängt ist.

Preise für GPU-Ressourcen

GPU-Ressourcen werden für Streaming- und Batchjobs zum gleichen Preis abgerechnet. FlexRS unterstützt derzeit keine GPUs. Informationen zu verfügbaren Regionen und Zonen für GPUs finden Sie unter Verfügbarkeit von GPU-Regionen und -Zonen in der Compute Engine-Dokumentation.

Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

Snapshots

Mit Snapshots können Sie den Pipelinestatus speichern und wiederherstellen, um die Zuverlässigkeit Ihrer Streamingpipelines zu verwalten. Die Snapshot-Nutzung wird nach dem gespeicherten Datenvolumen abgerechnet und hängt von den folgenden Faktoren ab:

  • Die in die Streamingpipeline aufgenommene Datenmenge
  • Ihre Windowing-Logik
  • Anzahl der Pipelinephasen

Sie können mit der Dataflow-Konsole oder der Google Cloud CLI einen Snapshot Ihres Streamingjobs erstellen. Für die Erstellung eines Auftrags aus Ihrem Snapshot zur Wiederherstellung des Zustands Ihrer Pipeline fallen keine zusätzlichen Kosten an. Weitere Informationen finden Sie unter Dataflow-Snapshots verwenden.

Snapshot-Preise

Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

Confidential VM

Confidential VM for Dataflow verschlüsselt Daten, die auf Worker-VMs in Compute Engine verwendet werden. Weitere Informationen finden Sie unter Confidential Computing-Konzepte.

Die Verwendung von Confidential VM für Dataflow verursacht zusätzliche Pauschalkosten pro vCPU und GB.

Confidential VM - Preise

Die Preise sind global und ändern sich nicht je nach Google Cloud-Region.

Nicht-Dataflow-Ressourcen

Zusätzlich zur Dataflow-Nutzung kann ein Job weitere Ressourcen nutzen, die jeweils nach ihren eigenen Preisen abgerechnet werden, darunter:

Ressourcennutzung ansehen

Die mit einem Job verknüpften vCPU-, Arbeitsspeicher- und nichtflüchtigen Speicherressourcen können Sie im Bereich Jobinformationen unter Ressourcenmesswerte einsehen. Sie können die folgenden Messwerte auf der Dataflow-Monitoring-Oberfläche verfolgen:

  • vCPU-Gesamtzeit
  • Gesamtzeit der Arbeitsspeichernutzung
  • Gesamtnutzungszeit des nichtflüchtigen Speichers
  • Gesamte verarbeitete Streamingdaten
  • Insgesamt verarbeitete Shuffle-Daten
  • Verarbeitete kostenpflichtige Shuffle-Daten

Anhand des Messwerts Verarbeitete Shuffle-Daten insgesamt können Sie die Leistung der Pipeline bewerten. Anhand des Messwerts Verarbeitete abrechenbare Shuffle-Daten lassen sich die Kosten des Dataflow-Jobs ermitteln.

Bei Dataflow Prime können Sie die Gesamtzahl der von einem Job genutzten DCUs im Bereich Jobinfo unter Ressourcenmesswerte ansehen.

Preisrechner

Mit dem Preisrechner der Google Cloud können Sie sich ein Bild davon machen, wie sich Ihre Rechnung zusammensetzt.

Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

Nächste Schritte

Individuelles Angebot einholen

Mit den „Pay as you go“-Preisen von Google Cloud bezahlen Sie nur für die Dienste, die Sie nutzen. Wenden Sie sich an unser Vertriebsteam, wenn Sie ein individuelles Angebot für Ihr Unternehmen erhalten möchten.
Vertrieb kontaktieren