|

Dataflow – Preise

Auf dieser Seite werden die Preise für Dataflow beschrieben. Informationen zu den Preisen anderer Produkte finden Sie in der Preisliste.

Auf unserer Seite zu Rabatten für zugesicherte Nutzung erfahren Sie, wie Sie bei einer Zusicherung von 3 Jahren 40% und bei einer Zusicherung von 1 Jahr 20% sparen können.

Übersicht

Die Dataflow-Nutzung wird für die Ressourcen in Rechnung gestellt, die Ihre Jobs verwenden. Je nach Preismodell werden die Ressourcen unterschiedlich gemessen und abgerechnet.

Dataflow-Rechenressourcen Dataflow Prime-Rechenressourcen
Data Compute Units (DCUs)
(Batch- und Streaming-Datenverarbeitung)

Weitere Dataflow-Ressourcen, die für alle Jobs in Rechnung gestellt werden, umfassen nichtflüchtige Speicher, GPUs und Snapshots.

Ressourcen aus anderen Diensten können für den Dataflow-Job verwendet werden. Zu den Diensten, die mit Dataflow verwendet werden, gehören unter anderem BigQuery, Pub/Sub, Cloud Storage und Cloud Logging.

Der Preis wird zwar pro Stunde angegeben, die Abrechnung für die Nutzung des Dataflow-Dienstes erfolgt jedoch pro Sekunde und Job. Die Nutzung wird in Stunden angegeben, um trotz sekundengenauer Abrechnung einen Preis pro Stunde zu erhalten. Beispiel: 30 Minuten sind 0, 5 Stunden. Worker und Jobs können Ressourcen wie in den folgenden Abschnitten beschrieben nutzen.

Für zukünftige Releases von Dataflow gelten möglicherweise unterschiedliche Servicegebühren und/oder andere Bündelungsmöglichkeiten für zugehörige Dienste.

Dataflow-Rechenressourcen

Die Dataflow-Abrechnung für Rechenressourcen beinhaltet:

Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Seite Regionen und Zonen der Compute Engine.

Worker-CPU und -Arbeitsspeicher

Jeder Dataflow-Job verwendet mindestens einen Dataflow-Worker. Der Dataflow-Dienst bietet zwei Worker-Typen: Batch und Streaming. Für Batch- und Streaming-Worker gelten unterschiedliche Servicegebühren.

Dataflow-Worker nutzen die folgenden Ressourcen, die jeweils pro Sekunde abgerechnet werden:

  • CPU
  • Speicher

Batch- und Streaming-Worker sind spezialisierte Ressourcen, die Compute Engine nutzen. Allerdings gibt ein Dataflow-Job keine Compute Engine-Abrechnung für Compute Engine-Ressourcen aus, die vom Dataflow-Dienst verwaltet werden. Stattdessen wird die Nutzung dieser Compute Engine-Ressourcen zusammen mit den Gebühren für den Dataflow-Dienst ausgewiesen.

Sie können die standardmäßige Anzahl der Worker für einen Job überschreiben. Wenn Sie Autoscaling verwenden, können Sie die maximale Anzahl der Worker angeben, die einem Job zugewiesen werden sollen. Worker und entsprechende Ressourcen werden automatisch hinzugefügt und entfernt, je nachdem, ob Autoscaling aktiviert ist.

Darüber hinaus können Sie Pipeline-Optionen verwenden, um die jedem Worker zugewiesenen Standardressourceneinstellungen (Maschinentyp, Laufwerkstyp und Laufwerksgröße) zu überschreiben und GPUs zu verwenden.

FlexRS

Dataflow bietet eine Option mit ermäßigten CPU- und Speicherpreisen für die Batchverarbeitung. Flexible Resource Scheduling (FlexRS) vereint reguläre VMs und VMs auf Abruf in einem einzigen Dataflow-Worker-Pool, sodass Nutzer Zugriff auf kostengünstigere Verarbeitungsressourcen erhalten. FlexRS verzögert außerdem die Ausführung eines Batch-Dataflow-Jobs innerhalb eines Zeitraums von 6 Stunden, um den besten Zeitpunkt für den Start des Jobs je nach den verfügbaren Ressourcen zu ermitteln.

Während Dataflow eine Kombination von Workern zur Ausführung eines FlexRS-Jobs verwendet, wird Ihnen unabhängig vom Worker-Typ ein einheitlicher ermäßigter Preis von etwa 40% für CPU- und Speicherkosten im Vergleich zu den regulären Dataflow-Preisen berechnet. Sie weisen Dataflow mit dem Parameter FlexRS an, FlexRS für Ihre automatisch skalierten Batchpipelines zu verwenden.

Verarbeitete Dataflow Shuffle-Daten

Für Batchpipelines bietet Dataflow ein hoch skalierbares Feature namens Dataflow Shuffle, das Daten außerhalb von Workern mischt. Weitere Informationen finden Sie unter Dataflow Shuffle.

Die Dataflow Shuffle-Nutzung wird nach der Menge der während des Shuffles verarbeiteten Daten abgerechnet.

Streaming Engine-Preise

Bei Streamingpipelines verschiebt die Dataflow Streaming Engine die Streaming-Shuffle- und Statusverarbeitung aus den Worker-VMs in das Dataflow-Dienst-Back-End. Weitere Informationen finden Sie unter Streaming Engine.

Streaming Engine-Recheneinheiten

Bei der ressourcenbasierten Abrechnung werden Streaming Engine-Ressourcen in Streaming Engine-Recheneinheiten gemessen. Dataflow erfasst die Streaming Engine-Ressourcen, die von jedem Job verwendet werden, und berechnet dann die Gesamtkosten für die von diesem Job genutzten Ressourcen. Informationen zum Aktivieren der ressourcenbasierten Abrechnung für Ihren Job finden Sie unter Ressourcenbasierte Abrechnung verwenden. Bei der ressourcenbasierten Abrechnung werden bestehende Rabatte automatisch angewendet.

Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die Gesamtressourcen in Rechnung gestellt, die jeder Job verbraucht. Die SKU Data Compute Unit (DCU) wird jedoch anstelle der SKU der Streaming Engine Compute Unit verwendet.

Verarbeitete Streaming Engine-Daten (veraltet)

Dataflow unterstützt weiterhin die veraltete Abrechnung nach verarbeiteten Daten. Wenn Sie die ressourcenbasierte Abrechnung nicht aktivieren, werden Ihre Jobs über die Abrechnung nach verarbeiteten Daten abgerechnet.

Die Abrechnung der Streaming Engine nach verarbeiteten Daten misst die Nutzung anhand der Menge der verarbeiteten Streamingdaten, die von den folgenden Faktoren abhängt:

  • Die Menge der Daten, die in Ihre Streamingpipeline aufgenommen werden
  • Komplexität der Pipeline
  • Die Anzahl der Pipelinephasen mit Shuffle-Vorgang oder mit zustandsbehafteten DoFns

Beispiele für verarbeitete Bytes sind:

  • Eingaben aus Datenquellen
  • Datenflüsse von einer Fusing-Phase der Pipeline zur nächsten
  • Datenflüsse, die in einem benutzerdefinierten Zustand beibehalten oder für das Windowing verwendet werden
  • Nachrichten an Datensenken wie Pub/Sub oder BigQuery ausgeben

Dataflow-Preise für Compute-Ressourcen – Batch und FlexRS

Die folgende Tabelle enthält die Preisdetails für Worker-Ressourcen und Shuffle-Daten, die für Batch- und FlexRS-Jobs verarbeitet werden.

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle nicht verwendet wird, 25 GB nichtflüchtiger Speicher, wenn Dataflow Shuffle verwendet wird

2 FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern

Dataflow-Preise für Compute-Ressourcen – Streaming

Die folgende Tabelle enthält Preisinformationen zu Worker-Ressourcen, zu verarbeiteten Streaming Engine-Daten (Legacy) und zu Streaming Engine-Recheneinheiten für Streaming-Jobs.

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 400 GB nichtflüchtiger Speicher, wenn Streaming Engine nicht verwendet wird, 30 GB nichtflüchtiger Speicher, wenn Streaming Engine verwendet wird. Der Dataflow-Dienst ist derzeit zum Ausführen eines Streamingjobs pro Worker-Instanz auf 15 nichtflüchtige Speicher beschränkt. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist die minimale Ressourcenzuweisung.

4 Die Dataflow Shuffle-Preise richten sich nach den Gutschriften für die Datenmenge, die in den Lese- und Schreibvorgängen beim Umverteilen Ihres Datasets verarbeitet wird. Weitere Informationen finden Sie unter Preisangaben zu Dataflow Shuffle. Die Preise für Dataflow Shuffle gelten nicht für Streaming Engine-Jobs, die die ressourcenbasierte Abrechnung verwenden.

5 Streaming Engine-Recheneinheiten: für Streamingjobs, die die Streaming Engine und das ressourcenbasierte Abrechnungsmodell verwenden. Für die bei der Shuffle-Funktion verarbeiteten Daten werden für diese Jobs keine Gebühren berechnet.

Volumenanpassungen für verarbeitete Dataflow Shuffle-Daten

Die Kosten werden pro Dataflow-Job nach Anpassung des während den Dataflow Shuffle-Vorgängen verarbeiteten Gesamtvolumens berechnet. Ihre tatsächliche Abrechnung für die verarbeiteten Dataflow Shuffle-Daten entspricht dem Standardpreis für ein kleineres Datenvolumen als dem, das in einem Dataflow-Job verarbeitet wurde. Diese Differenz ergibt sich daraus, dass der abrechenbare Messwert für verarbeitete Shuffle-Daten geringer ist als der Messwert für insgesamt verarbeitete Shuffle-Daten.

In der folgenden Tabelle wird erläutert, wie diese Gutschriften angewendet werden:

Verarbeitete Dataflow Shuffle-Daten Rechnungsgutschrift
Erste 250 GB 75 %
Nächste 4.870 GB 50 %
Weitere Daten über 5.120 GB (5 TB) keine

Wenn Ihre Pipeline beispielsweise insgesamt 1.024 GB (1 TB) verarbeitete Dataflow Shuffle-Daten umfasst, wird das Datenvolumen so berechnet:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Bei einer Pipeline mit insgesamt 10.240 GB (10 TB) verarbeiteten Dataflow Shuffle-Daten wird das Datenvolumen so berechnet:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Preise für Dataflow Prime-Rechenressourcen

Dataflow Prime ist eine Datenverarbeitungsplattform, die auf Dataflow aufbaut und Verbesserungen bei der Ressourcennutzung und der verteilten Diagnose bietet.

Die Preise für die von einem Dataflow Prime-Job genutzten Rechenressourcen richten sich nach der Anzahl der Data Compute Units (DCU). DCUs stellen die Rechenressourcen dar, die zum Ausführen Ihrer Pipeline zugewiesen werden. Weitere Dataflow-Ressourcen, die von Dataflow Prime-Jobs verwendet werden, wie z. B. nichtflüchtige Speicher, GPUs und Snapshots, werden separat abgerechnet.

Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Seite Regionen und Zonen der Compute Engine.

Data Compute Unit

Eine Data Compute Unit (DCU) ist eine Einheit zur Dataflow-Nutzungsmessung, mit der die von Ihren Jobs genutzten Rechenressourcen verfolgt werden. Zu den von DCUs erfassten Ressourcen zählen vCPUs, Arbeitsspeicher, verarbeitete Dataflow Shuffle-Daten (für Batchjobs) und verarbeitete Streaming Engine-Daten (für Streamingjobs). Bei Jobs, die mehr Ressourcen verbrauchen, ist die DCU-Nutzung im Vergleich zu Jobs, die weniger Ressourcen verbrauchen, höher. Eine DCU ist vergleichbar mit den Ressourcen, die von einem Dataflow-Job verwendet werden, der eine Stunde lang auf einem Worker mit 1 vCPU und 4 GB ausgeführt wird.

Abrechnung von Data Compute Unit

Ihnen wird die Gesamtzahl der von Ihrem Job verbrauchten DCUs in Rechnung gestellt. Der Preis für eine einzelne DCU variiert je nachdem, ob Sie einen Batch-Job oder einen Streaming-Job haben. Wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden, werden Ihnen die Kosten auf der Grundlage der insgesamt genutzten Ressourcen anstatt der verarbeiteten Bytes in Rechnung gestellt.

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

Data Compute Unit-Nutzung optimieren

Sie können die Anzahl der Datenverarbeitungseinheiten für Ihre Jobs nicht festlegen. DCUs werden von Dataflow Prime gezählt. Sie können die Anzahl der verbrauchten DCUs jedoch reduzieren, indem Sie die folgenden Aspekte Ihres Jobs verwalten:

  • Arbeitsspeicherverbrauch reduzieren
  • Reduzieren Sie die Menge der nach dem Zufallsprinzip verarbeiteten Daten mithilfe von Filtern, Kombinatoren und effizienten Codern.

Sie können die Optimierungen über die Schnittstelle Dataflow-Monitoring-Oberfläche und die Schnittstelle für Ausführungsdetails identifizieren.

Wie unterscheiden sich Dataflow Prime-Preise von Dataflow-Preisen?

In Dataflow werden die unterschiedlichen Ressourcen in Rechnung gestellt, die von den Jobs verbraucht werden, wie z. B. vCPUs, Arbeitsspeicher, Persistent Disk und die von Dataflow Shuffle oder Streaming Engine verarbeitete Datenmenge.

Data Compute Units konsolidieren alle Ressourcen außer Speicher in einer einzigen Messeinheit. Sie zahlen für die Ressourcen von nichtflüchtigen Datenträgern und die Anzahl der genutzten Datenverarbeitungseinheiten, je nach Jobtyp (Batch oder Streaming). Weitere Informationen finden Sie unter Dataflow Prime verwenden.

Was passiert mit meinen bestehenden Jobs, die das Dataflow-Preismodell verwenden?

Für Ihre bisherigen Batch- und Streamingjobs wird weiterhin das Dataflow-Modell verwendet. Wenn Sie Ihre Jobs aktualisieren, um Dataflow Prime zu verwenden, werden die Jobs dann mit dem Dataflow Prime-Preismodell abgerechnet, bei dem die Kosten für die Persistent Disk-Ressourcen und die verbrauchten DCUs berechnet werden.

Weitere Dataflow-Ressourcen

Speicher, GPUs, Snapshots und andere Ressourcen werden für Dataflow und Dataflow Prime auf die gleiche Weise abgerechnet.

Preise für Speicherressourcen

Speicherressourcen werden für Streaming-, Batch- und FlexRS-Jobs zum selben Preis abgerechnet. Sie können die Pipelineoptionen verwenden, um die Standardgröße oder den Standardtyp des Laufwerks zu ändern. Die Kosten für die Persistent Disk werden bei Dataflow Prime separat berechnet und richten sich nach den Preisen in der folgenden Tabelle.

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

Der Dataflow-Dienst ist derzeit zum Ausführen eines Streamingjobs pro Worker-Instanz auf 15 nichtflüchtige Speicher beschränkt. Jeder nichtflüchtige Speicher ist lokal einer einzelnen virtuellen Compute Engine-Maschine zugeordnet. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist die minimale Ressourcenzuweisung.

Für Jobs, die Streaming Engine verwenden, werden 30-GB-Bootlaufwerke verwendet. Für Jobs, die Dataflow Shuffle verwenden, werden 25 GB Bootlaufwerke verwendet. Bei Jobs, die diese Angebote nicht nutzen, beträgt die Standardgröße der nichtflüchtigen Speicher 250 GB im Batchmodus und 400 GB im Streamingmodus.

Die Compute Engine-Nutzung richtet sich nach der durchschnittlichen Anzahl von Workern. Die Nutzung nichtflüchtiger Speicher basiert hingegen auf dem exakten Wert von --maxNumWorkers. Nichtflüchtige Speicher werden so neu verteilt, dass jeder Worker mit der gleichen Anzahl von Laufwerken verbunden ist.

Preise für GPU-Ressourcen

GPU-Ressourcen werden für Streaming- und Batch-Jobs zum selben Preis abgerechnet. FlexRS unterstützt derzeit keine GPUs. Informationen zu verfügbaren Regionen und Zonen für GPUs finden Sie in der Compute Engine-Dokumentation unter Verfügbarkeit: GPU-Regionen und ‑Zonen.

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

Snapshots

Sie können mit Snapshots den Zustand Ihrer Pipeline speichern und wiederherstellen, um die Zuverlässigkeit Ihrer Streaming-Pipelines zu gewährleisten. Die Snapshot-Nutzung wird nach der Menge der gespeicherten Daten abgerechnet. Diese hängt von den folgenden Faktoren ab:

  • Die Menge der Daten, die in Ihre Streamingpipeline aufgenommen werden
  • Ihre Fensterlogik
  • Anzahl der Pipelinephasen

Sie können einen Snapshot Ihres Streamingjobs mit der Dataflow-Konsole oder der Google Cloud CLI erstellen. Für die Erstellung eines Auftrags aus Ihrem Snapshot zur Wiederherstellung des Zustands Ihrer Pipeline fallen keine zusätzlichen Kosten an. Weitere Informationen finden Sie unter Dataflow-Snapshots verwenden.

Snapshot-Preise

Wenn Sie nicht in US-Dollar bezahlen, werden die Preise in Ihrer Währung Cloud Platform-SKUs angewendet werden.

Confidential VM

Confidential VM für Dataflow verschlüsselt Daten, die auf Compute Engine-VMs von Arbeitsthreads verwendet werden. Weitere Informationen finden Sie unter Confidential VM – Übersicht.

Die Verwendung von Confidential VM für Dataflow verursacht zusätzliche Pauschalkosten pro vCPU und GB.

Confidential VM - Preise

Die Preise sind weltweit gültig und ändern sich nicht je nach Region in Google Cloud.

Nicht-Dataflow-Ressourcen

Neben der Nutzung von Dataflow kann ein Job weitere Ressourcen verbrauchen, die jeweils nach ihren eigenen Preisen abgerechnet werden. Dies sind beispielsweise:

Ressourcennutzung ansehen

Sie können die Gesamtzahl der vCPU-, Arbeitsspeicher- und nichtflüchtigen Speicherressourcen, die einem Job zugeordnet sind, im Bereich Jobinformationen unter Ressourcenmesswerte einsehen. Die folgenden Messwerte können Sie in der Dataflow-Überwachungsoberfläche erfassen:

  • vCPU-Gesamtzeit
  • Gesamtzeit für Arbeitsspeichernutzung
  • Gesamte Nutzungszeit von Persistent Disks
  • Gesamte verarbeitete Streamingdaten
  • Gesamte verarbeitete Shuffle-Daten
  • Verarbeitete abrechenbare Shuffle-Daten

An den Gesamten verarbeiteten Shuffle-Daten können Sie die Leistung Ihrer Pipeline ablesen und an den Verrechneten verarbeiteten Shuffle-Daten die Kosten des jeweiligen Dataflow-Jobs.

Bei Dataflow Prime können Sie die Gesamtzahl der von einem Job genutzten DCUs im Bereich Job-Infos unter Ressourcenmesswerte aufrufen.

Preisrechner

Mit dem Google Cloud--Preisrechner können Sie sich ein Bild davon machen, wie sich Ihre Rechnung zusammensetzt.

Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

Nächste Schritte

Individuelles Angebot einholen

Mit den „Pay as you go“-Preisen von Google Cloud bezahlen Sie nur für die Dienste, die Sie nutzen. Wenden Sie sich an unser Vertriebsteam, wenn Sie ein individuelles Angebot für Ihr Unternehmen erhalten möchten.
Vertrieb kontaktieren