Dataflow – Preise
Auf dieser Seite werden die Preise für Dataflow beschrieben. Informationen zu den Preisen anderer Produkte finden Sie in der Preisliste.
Hier erfahren Sie, wie Sie bei einer Vertragsdauer von drei Jahren 40% oder bei einer Laufzeit von einem Jahr 20% sparen können. finden Sie auf der Seite Rabatte für zugesicherte Nutzung.
Übersicht
Die Dataflow-Nutzung wird nach den von Ihren Jobs verwendeten Ressourcen abgerechnet. Je nach verwendetem Preismodell werden unterschiedlich gemessen und abgerechnet.
Dataflow-Rechenressourcen | Dataflow Prime-Rechenressourcen |
|
Datenrecheneinheiten (Data Compute Units, DCUs) (Batch und Streaming) |
Weitere Dataflow-Ressourcen die für alle Jobs in Rechnung gestellt werden, sind nichtflüchtiger Speicher, GPUs und Snapshots.
Für den Dataflow können Ressourcen aus anderen Diensten verwendet werden. Job. Die mit Dataflow verwendeten Dienste sind beispielsweise BigQuery, Pub/Sub, Cloud Storage und Cloud Logging.
Obwohl der Preis auf Stundenbasis basiert, Die Nutzung wird in Schritten von pro Sekunde und Job abgerechnet. Die Nutzung ist die in Stunden angegeben sind, damit bei sekundengenauer Nutzung ein Preis pro Stunde abgerechnet wird. Beispiel: 30 Minuten sind 0, 5 Stunden. Worker und Jobs können Ressourcen wie die in den folgenden Abschnitten beschrieben werden.
Für zukünftige Releases von Dataflow gelten möglicherweise andere Servicegebühren oder Bündelung zugehöriger Dienstleistungen.
Dataflow-Rechenressourcen
Dataflow-Abrechnung für Rechenressourcen umfasst die folgenden Komponenten:
- Worker-CPU und -Arbeitsspeicher
- Für Batcharbeitslasten verarbeitete Dataflow Shuffle-Daten
- Streaming Engine-Recheneinheiten
- Verarbeitete Streaming Engine-Daten
Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie unter Regionen und Zonen von Compute Engine Seite.
Worker-CPU und -Arbeitsspeicher
Jeder Dataflow-Job verwendet mindestens einen Dataflow-Worker. Der Dataflow-Dienst bietet zwei Worker-Typen: Batch und Streaming. Für Batch- und Streaming-Worker gelten unterschiedliche Servicegebühren.
Dataflow-Worker nutzen die folgenden Ressourcen, die jeweils in Rechnung gestellt werden pro Sekunde an:
- CPU
- Speicher
Batch- und Streaming-Worker sind spezialisierte Ressourcen, die Compute Engine nutzen. Ein Dataflow-Job gibt jedoch Compute Engine-Abrechnung für Compute Engine-Ressourcen, die verwaltet werden den Dataflow-Dienst. Stattdessen wird der Dataflow-Dienst Gebühren umfassen die Nutzung dieser Compute Engine-Ressourcen.
Sie können die standardmäßige Anzahl der Worker für einen Job überschreiben. Wenn Sie Autoscaling können Sie gibt die maximale Anzahl von Workern an, die einem Job zugewiesen werden soll. Mitarbeiter*innen und werden die entsprechenden Ressourcen automatisch hinzugefügt und entfernt, für die automatische Skalierung.
Darüber hinaus können Sie Pipelineoptionen zum Überschreiben der Standardressourceneinstellungen wie Maschinentyp, Laufwerkstyp und Laufwerk die jedem Worker zugewiesen sind und GPUs verwenden.
FlexRS
Dataflow bietet eine Option mit Rabatt auf CPU und Arbeitsspeicher Preise für die Batchverarbeitung. Flexible Resource Scheduling (FlexRS) vereint reguläre VMs und VMs auf Abruf in einem einzigen Dataflow-Worker-Pool, sodass Nutzer Zugriff auf kostengünstigere Verarbeitungsressourcen erhalten. FlexRS verzögert außerdem die Ausführung eines Batch-Dataflow-Jobs innerhalb eines Zeitraums von 6 Stunden, um den besten Zeitpunkt für den Start des Jobs je nach den verfügbaren Ressourcen zu ermitteln.
Obwohl Dataflow eine Kombination von Workern verwendet, um einen FlexRS-Job auszuführen, wird eine einheitliche Rabatt von etwa 40% auf CPU- und Speicherkosten im Vergleich zu normalen Dataflow-Preise unabhängig von den Worker-Typ. Sie weisen Dataflow mit dem Parameter FlexRS an, FlexRS für Ihre automatisch skalierten Batchpipelines zu verwenden.
Verarbeitete Dataflow Shuffle-Daten
Für Batchpipelines bietet Dataflow eine hoch skalierbare Funktion, Dataflow Shuffle, bei dem Daten außerhalb der Worker zufällig angeordnet werden. Weitere Informationen finden Sie unter Dataflow Shuffle.
Die Abrechnung für Dataflow Shuffle erfolgt nach der Datenmenge die beim Zufallsmix verarbeitet werden.
Streaming Engine-Preise
Bei Streamingpipelines verschiebt die Dataflow Streaming Engine Streaming von Shuffle und Statusverarbeitung aus den Worker-VMs in die Dataflow-Dienst-Back-End Weitere Informationen finden Sie unter Streaming Engine
Streaming Engine-Recheneinheiten
Bei der ressourcenbasierten Abrechnung werden Streaming Engine-Ressourcen Streaming Engine-Recheneinheiten. Dataflow erfasst die Streaming Engine-Ressourcen, die die einzelnen Jobs verwenden und berechnet dann auf Basis der Gesamtressourcen, die von diesem Job verwendet werden. Informationen zum Aktivieren der ressourcenbasierten Abrechnung für Ihren Job finden Sie unter Ressourcenbasierte Abrechnung verwenden Wenn Sie die ressourcenbasierte Abrechnung verwenden, werden vorhandene Rabatte automatisch angewendet.
Die Abrechnung erfolgt, wenn Sie Dataflow Prime mit ressourcenbasierter Abrechnung verwenden. für die Ressourcen insgesamt, die jeder Job nutzt, Die SKU Data Compute Unit (DCU) wird anstelle der SKU für Streaming Engine-Recheneinheit.
Verarbeitete Streaming Engine-Daten (Legacy)
Dataflow setzt unterstützen die Legacy-Datenverarbeitung. Es sei denn, Sie die ressourcenbasierte Abrechnung zu aktivieren, Jobs werden mithilfe von datenverarbeiteten Abrechnungen abgerechnet.
Bei der Abrechnung für die Streaming Engine-Datenverarbeitung wird die Nutzung anhand des verarbeiteten Streamingdaten. Dies hängt von den folgenden Faktoren ab:
- Das in die Streamingpipeline aufgenommene Datenvolumen
- Komplexität der Pipeline
- Die Anzahl der Pipelinephasen mit Shuffle-Vorgang oder mit zustandsorientierte DoFns
Hier einige Beispiele für verarbeitete Byte:
- Eingabeflüsse aus Datenquellen
- Datenflüsse von einer zusammengeführten Pipelinephase zu einer anderen zusammengeführten Phase
- Datenflüsse, die in einem benutzerdefinierten Zustand beibehalten oder für Windowing verwendet werden
- Nachrichten an Datensenken ausgeben, z. B. in Pub/Sub oder BigQuery
Preise für Dataflow-Computing-Ressourcen – Batch und FlexRS
Die folgende Tabelle enthält Preisangaben für Worker-Ressourcen und Shuffle Daten, die für Batch- und FlexRS-Jobs verarbeitet werden.
1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher, wenn Dataflow nicht verwendet wird Shuffle, 25 GB nichtflüchtiger Speicher bei Verwendung von Dataflow Shuffle
2 FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern
Preise für Dataflow-Computing-Ressourcen – Streaming
Die folgende Tabelle enthält Preisdetails für Worker-Ressourcen, Streaming Verarbeitete Engine-Daten (Legacy) und Streaming Engine-Recheneinheiten für das Streaming Jobs.
<ph type="x-smartling-placeholder">
3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 400 GB nichtflüchtiger Speicher wenn Streaming Engine nicht verwendet wird: 30 GB nichtflüchtiger Speicher bei Verwendung von Streaming Engine. Die Der Dataflow-Dienst ist derzeit auf 15 nichtflüchtige Speicher pro Worker-Instanz beschränkt, wenn einen Streamingjob ausführen. Ein Verhältnis von 1:1 zwischen Workern und Laufwerken ist die minimale Ressourcenzuweisung.
4 Die Dataflow Shuffle-Preise basieren auf Volumenanpassungen, die auf die verarbeitete Datenmenge angewendet werden bei Lese- und Schreibvorgängen während der Umverteilung des Datasets. Weitere Informationen finden Sie unter Preisangaben zu Dataflow Shuffle. Dataflow Shuffle-Preise gelten nicht für Streaming Engine-Jobs, die eine ressourcenbasierte Abrechnung verwenden.
5 Streaming Engine-Recheneinheiten: für Streamingjobs, die Streaming Engine und das ressourcenbasierte Abrechnungsmodell verwenden. Für diese Jobs werden die während des Shuffle verarbeiteten Daten nicht in Rechnung gestellt.
Volumenanpassungen für verarbeitete Dataflow Shuffle-Daten
Die Gebühren werden pro Dataflow-Job anhand von Volumenanpassungen berechnet, die auf die Gesamtmenge Daten, die während Dataflow Shuffle-Vorgängen verarbeitet werden. Ihre tatsächliche Abrechnung für die verarbeiteten Dataflow Shuffle-Daten entspricht dem Standardpreis für ein kleineres Datenvolumen als dem, das in einem Dataflow-Job verarbeitet wurde. Dieser Unterschied führt zum abrechenbare Shuffle-Daten verarbeitet kleiner ist als der gesamten verarbeiteten Shuffle-Daten zugewiesen.
In der folgenden Tabelle wird erläutert, wie diese Gutschriften angewendet werden:
Verarbeitete Dataflow Shuffle-Daten | Abrechnungskorrektur |
Erste 250 GB | 75 % |
Nächste 4.870 GB | 50 % |
Weitere Daten über 5.120 GB (5 TB) | keine |
Wenn Ihre Pipeline beispielsweise insgesamt 1.024 GB (1 TB) an verarbeiteten Dataflow Shuffle-Daten ergibt, wird der abrechenbare Betrag so berechnet:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
Wenn Ihre Pipeline insgesamt 10.240 GB (10 TB) verarbeitete Dataflow Shuffle-Daten umfasst, wird die abrechenbare Datenmenge so berechnet:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Preise für Dataflow Prime-Computing-Ressourcen
Dataflow Prime ist eine Datenverarbeitungsplattform, die auf Dataflow aufbaut. Verbesserungen bei der Ressourcenauslastung und der verteilten Diagnose.
Die von einem Dataflow Prime-Job verwendeten Rechenressourcen werden nach der Anzahl der Daten berechnet Recheneinheiten (Recheneinheiten, DCUs): DCUs stellen die Rechenressourcen dar, die zugewiesen werden um Ihre Pipeline auszuführen. Weitere Dataflow-Ressourcen die von Dataflow Prime-Jobs wie Persistent Disk, GPUs und Snapshots verwendet werden, separat abgerechnet.
Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie unter Regionen und Zonen von Compute Engine Seite.
Datenrecheneinheit
Eine Data Compute Unit (DCU) ist eine Messungseinheit der Dataflow-Nutzung, verfolgt die Anzahl der von Ihren Jobs verbrauchten Rechenressourcen. Erfasste Ressourcen der DCUs umfassen vCPU, Arbeitsspeicher und verarbeitete Dataflow Shuffle-Daten. (für Batchjobs) und verarbeitete Streaming Engine-Daten (für Streamingjobs). Stellenangebote die mehr Ressourcen verbrauchen, haben eine höhere DCU-Nutzung als Jobs, die weniger Ressourcen. Ein DCU ist mit den Ressourcen vergleichbar, die von einem Dataflow-Job, der eine Stunde lang auf einem Worker mit 1 vCPU und 4 GB ausgeführt wird.
Abrechnung für Data Compute Unit
Ihnen wird die Gesamtzahl der von Ihrem Job genutzten DCUs in Rechnung gestellt. Der Preis für einen einzelnen DCU hängt davon ab, ob Sie einen Batch- oder Streamingjob haben. Wenn Sie Dataflow Prime verwenden Ressourcenbasierte Abrechnung bietet, können Sie werden basierend auf den insgesamt verwendeten Ressourcen anstelle des Byteprozesses abgerechnet.
<ph type="x-smartling-placeholder">Nutzung von Datenrecheneinheiten optimieren
Sie können die Anzahl der DCUs für Ihre Jobs nicht festlegen. DCUs werden von Dataflow Prime gezählt. Sie können jedoch die Anzahl der verwendeten DCUs reduzieren, indem Sie Folgendes verwalten: Aspekte Ihres Jobs:
- Arbeitsspeichernutzung reduzieren
- Reduzieren der verarbeiteten Datenmenge bei der Umverteilung nach dem Zufallsprinzip mithilfe von Filtern, Kombinierern und effizienten Codierern
Um diese Optimierungen zu identifizieren, verwenden Sie die Dataflow-Monitoring-Oberfläche und die Oberfläche für die Ausführungsdetails.
Wie unterscheidet sich die Preisgestaltung von Dataflow Prime von den Dataflow-Preisen?
In Dataflow werden Ihnen die unterschiedlichen Ressourcen in Rechnung gestellt. die Ihre Jobs nutzen, z. B. vCPUs, Arbeitsspeicher, Persistent Disk und die Dataflow Shuffle oder Streaming Engine.
Datenrecheneinheiten konsolidieren alle Ressourcen mit Ausnahme des Speichers in einem einzelne Messeinheit. Ihnen werden nichtflüchtige Speicherressourcen und Anzahl der genutzten DCUs je nach Jobtyp, Batch oder Streaming. Weitere Informationen finden Sie unter Dataflow Prime verwenden
Was geschieht mit meinen vorhandenen Jobs, für die das Dataflow-Preismodell verwendet wird?
Ihre vorhandenen Batch- und Streamingjobs werden weiterhin über die Dataflow-Modell. Wenn Sie Ihre Jobs auf mit Dataflow Prime werden die Jobs Verwenden Sie dann das Dataflow Prime-Preismodell, bei dem der nichtflüchtige Speicher abgerechnet wird und für die verbrauchten DCUs.
Weitere Dataflow-Ressourcen
Speicher, GPUs, Snapshots und andere Ressourcen werden für Dataflow und Dataflow Prime.
Preise für Speicherressourcen
Speicherressourcen werden für Streaming, Batch und FlexRS zum gleichen Preis abgerechnet Jobs. Sie können Pipelineoptionen, um die Standardlaufwerksgröße oder den standardmäßigen Laufwerkstyp zu ändern. Dataflow Prime stellt den nichtflüchtigen Speicher separat auf Basis der Preise in der folgenden Tabelle.
<ph type="x-smartling-placeholder">Der Dataflow-Dienst ist derzeit auf 15 nichtflüchtige Speicher beschränkt pro Worker-Instanz, wenn Sie einen Streamingjob ausführen. Jeder nichtflüchtige Speicher ist lokal mit einer einzelnen virtuellen Compute Engine-Maschine verbinden. Ein Verhältnis von 1:1 Worker und Laufwerke ist das Mindestressourcenkontingent.
Jobs, die Streaming Engine verwenden, belegen 30 GB. Bootlaufwerke. Jobs mit Dataflow Shuffle 25 GB Bootlaufwerke verwendet werden. Für Jobs, die diese Angebote nicht nutzen, Die Standardgröße jedes nichtflüchtigen Speichers beträgt 250 GB im Batchmodus und 400 GB im Streaming-Modus.
Die Compute Engine-Nutzung basiert auf der durchschnittlichen Anzahl der Worker, während
Die Nutzung des nichtflüchtigen Speichers basiert auf dem genauen Wert von --maxNumWorkers
. Nichtflüchtige Speicher
neu verteilt, sodass jeder Worker über dieselbe Anzahl von Laufwerken verfügt.
Preise für GPU-Ressourcen
GPU-Ressourcen werden für Streaming- und Batchjobs zum gleichen Preis abgerechnet. FlexRS unterstützt derzeit keine GPUs. Informationen zu verfügbaren Regionen und Zonen für GPUs, siehe Verfügbarkeit von GPU-Regionen und -Zonen in der Compute Engine-Dokumentation.
<ph type="x-smartling-placeholder">Snapshots
Um die Zuverlässigkeit Ihrer Streamingpipelines zu verwalten, können Sie um den Pipelinestatus zu speichern und wiederherzustellen. Die Snapshot-Nutzung wird nach der Menge der gespeicherten Daten berechnet, die von den folgenden Faktoren abhängt:
- Das in die Streamingpipeline aufgenommene Datenvolumen
- Ihre Windowing-Logik
- Anzahl der Pipelinephasen
Mit dem Dataflow-Dienst können Sie einen Snapshot Ihres Streamingjobs erstellen. Console oder die Google Cloud CLI. Für die Erstellung eines Auftrags aus Ihrem Snapshot zur Wiederherstellung des Zustands Ihrer Pipeline fallen keine zusätzlichen Kosten an. Weitere Informationen finden Sie unter Dataflow-Snapshots verwenden
Snapshot-Preise
<ph type="x-smartling-placeholder">Confidential VM
Confidential VM für Dataflow verschlüsselt aktive Daten auf Compute Engine-Worker-VMs. Weitere Informationen finden Sie unter Confidential VM – Übersicht
Bei der Verwendung von Confidential VM für Dataflow fallen zusätzliche Flatrates an. Kosten pro vCPU und GB.
Confidential VM - Preise
Die Preise sind global und ändern sich nicht je nach Google Cloud-Region.
Nicht-Dataflow-Ressourcen
Neben der Dataflow-Nutzung greift ein Job möglicherweise auf Folgendes: Ressourcen, die jeweils nach ihren eigenen Preisen abgerechnet werden, einschließlich, aber nicht beschränkt auf:
-
Dataflow-Jobs verwenden Cloud Storage zum Speichern temporärer Dateien während der Pipelineausführung. Um unnötige Speicherkosten zu vermeiden, deaktivieren Sie die Funktion für vorläufiges Löschen für Buckets, Dataflow-Jobs werden als temporärer Speicher verwendet. Weitere Informationen finden Sie unter Richtlinie für vorläufiges Löschen aus einem Bucket entfernen
-
Sie können Logs an andere Ziele weiterleiten oder Logs von der Aufnahme ausschließen. Informationen zum Optimieren des Logvolumens für Ihren Dataflow finden Sie unter Cloud Dataflow-Logvolumen steuern.
Ressourcennutzung ansehen
Sie können die Gesamtzahl der vCPU-, Arbeitsspeicher- und Persistent Disk-Ressourcen, mit einem Job im Bereich Jobinformationen unter Ressourcenmesswerte. Ich die folgenden Messwerte im Dataflow Monitoring-Oberfläche:
- vCPU-Gesamtzeit
- Gesamtzeit für Arbeitsspeichernutzung
- Gesamte Nutzungszeit des nichtflüchtigen Speichers
- Gesamte verarbeitete Streamingdaten
- Insgesamt verarbeitete Shuffle-Daten
- Abrechenbare Shuffle-Daten verarbeitet
Mit dem Messwert Insgesamt verarbeitete Shuffle-Daten können Sie die Leistung und anhand des Messwerts Verarbeitete Abrechenbare Shuffle-Daten die Kosten ermitteln. des Dataflow-Jobs.
Für Dataflow Prime können Sie die Gesamtzahl der von einem Job genutzten DCUs ansehen im Bereich Jobinformationen unter Ressourcenmesswerte.
Preisrechner
Mit dem Preisrechner der Google Cloud können Sie sich ein Bild davon machen, wie sich Ihre Rechnung zusammensetzt.
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.
Nächste Schritte
- Lesen Sie die Dataflow-Dokumentation.
- Erste Schritte mit Dataflow
- Preisrechner ausprobieren
- Informationen zu Dataflow-Lösungen und -Anwendungsfällen