Dataflow – Preise

Auf dieser Seite werden die Preise für Dataflow beschrieben. Informationen zu den Preisen anderer Produkte finden Sie in der Preisliste.

Preisübersicht

Der Preis wird zwar pro Stunde angegeben, die Abrechnung für die Nutzung des Dataflow-Dienstes erfolgt jedoch pro Sekunde und Job. Die Nutzung wird in Stunden angegeben (30 Minuten sind beispielsweise 0,5 Stunden), damit trotz sekundengenauer Abrechnung ein Preis pro Stunde abgerechnet wird. Worker und Jobs können Ressourcen wie in den folgenden Abschnitten beschrieben nutzen.

Worker und Worker-Ressourcen

Jeder Dataflow-Job verwendet mindestens einen Dataflow-Worker. Der Dataflow-Dienst bietet zwei Worker-Typen: Batch und Streaming. Für Batch- und Streaming-Worker gelten unterschiedliche Servicegebühren.

Dataflow-Worker nutzen die folgenden Ressourcen, die jeweils pro Sekunde abgerechnet werden:

Batch- und Streaming-Worker sind spezialisierte Ressourcen, die Compute Engine nutzen. Allerdings gibt ein Dataflow-Job keine Compute Engine-Abrechnung für Compute Engine-Ressourcen aus, die vom Dataflow-Dienst verwaltet werden. Stattdessen wird die Nutzung dieser Compute Engine-Ressourcen den Gebühren für den Dataflow-Dienst zugeschlagen.

Sie können die standardmäßige Anzahl der Worker für einen Job überschreiben. Wenn Sie Autoscaling verwenden, können Sie die maximale Anzahl der Worker angeben, die einem Job zugewiesen werden sollen. Worker und entsprechende Ressourcen werden automatisch hinzugefügt und entfernt, je nachdem, ob Autoscaling aktiviert ist.

Darüber hinaus können Sie Pipeline-Optionen verwenden, um die jedem Worker zugewiesenen Standardressourceneinstellungen (Maschinentyp, Laufwerkstyp und Laufwerksgröße) zu überschreiben und GPUs zu verwenden.

Dataflow-Dienste

Beim Shuffle-Vorgang von Dataflow werden Daten nach Schlüsseln auf skalierte, effiziente und fehlertolerante Weise partitioniert und gruppiert. Standardmäßig verwendet Dataflow eine Shuffle-Implementierung, die komplett auf virtuellen Worker-Maschinen ausgeführt wird und dabei die CPU, den Arbeitsspeicher und den Persistent Disk-Speicher der Worker nutzt.

Dataflow bietet außerdem ein optionales, hoch skalierbares Feature namens Dataflow Shuffle. Es steht nur für Batchpipelines zur Verfügung und verteilt Daten ohne die Hilfe von Workern nach dem Zufallsprinzip um. Die Shuffle-Nutzung wird nach der Menge der verarbeiteten Daten abgerechnet. Sie können Dataflow anweisen, Shuffle einzusetzen, indem Sie den Shuffle-Pipelineparameter angeben.

Ähnlich wie Shuffle verschiebt Dataflow Streaming Engine Streaming-Shuffle und Statusverarbeitung aus den Worker-VMs in das Dienst-Back-End von Dataflow. Mit dem Streaming Engine-Pipelineparameter weisen Sie Dataflow an, Streaming Engine für Ihre Streamingpipelines zu verwenden. Die Streaming Engine-Nutzung wird nach der Menge der verarbeiteten Streamingdaten abgerechnet. Diese hängt wiederum von der in die Streamingpipeline aufgenommenen Datenmenge und der Komplexität und Anzahl der Pipelinestufen ab. Als verarbeitete Bytes gelten beispielsweise Eingabeflüsse aus Datenquellen, Datenflüsse von einer zusammengefassten Pipelinestufe zu einer anderen zusammengefassten Stufe, in einem benutzerdefinierten Status erhaltene Datenflüsse oder für Windowing-Zwecke genutzte Datenflüsse und Ausgabenachrichten an Datensenken wie Pub/Sub oder BigQuery.

Dataflow bietet auch eine Option mit ermäßigten CPU- und Speicherpreisen für die Batchverarbeitung. Flexible Resource Scheduling (FlexRS) vereint reguläre VMs und VMs auf Abruf in einem einzigen Dataflow-Worker-Pool, sodass Nutzer Zugriff auf kostengünstigere Verarbeitungsressourcen erhalten. FlexRS verzögert außerdem die Ausführung eines Batch-Dataflow-Jobs innerhalb eines Zeitraums von 6 Stunden, um den besten Zeitpunkt für den Start des Jobs je nach den verfügbaren Ressourcen zu ermitteln. Während Dataflow eine Kombination von Workern zur Ausführung eines FlexRS-Jobs verwendet, wird Ihnen unabhängig vom Worker-Typ ein einheitlicher ermäßigter Preis im Vergleich zu den regulären Dataflow-Preisen berechnet. Sie weisen Dataflow mit dem Parameter FlexRS an, FlexRS für Ihre automatisch skalierten Batchpipelines zu verwenden.

Sie können mit Dataflow-Snapshots den Zustand Ihrer Pipeline speichern und wiederherstellen, um die Zuverlässigkeit Ihrer Streaming-Pipelines zu gewährleisten. Die Snapshot-Nutzung wird nach der Menge der gespeicherten Daten abgerechnet. Diese hängt wiederum von der in die Streamingpipeline aufgenommenen Datenmenge, Ihrer Windowing-Logik und der Anzahl der Pipelinestufen ab. Sie können einen Snapshot Ihres Streamingjobs mit der Dataflow-Web-UI oder dem gcloud-Befehlszeilentool erstellen. Für die Erstellung eines Auftrags aus Ihrem Snapshot zur Wiederherstellung des Zustands Ihrer Pipeline fallen keine zusätzlichen Kosten an. Weitere Informationen finden Sie unter Dataflow-Snapshots verwenden.

Dataflow Prime

Dataflow Prime ist eine neue Datenverarbeitungsplattform, die auf Dataflow aufbaut und Verbesserungen bei der Ressourcennutzung und verteilten Diagnose bietet.

Der Preis für einen Job, auf dem Dataflow Prime ausgeführt wird, richtet sich nach der Anzahl der von dem Job genutzten Dataflow-Verarbeitungseinheiten (Dataflow Processing Units, DPUs). DPUs stellen die Rechenressourcen dar, die zum Ausführen Ihrer Pipeline zugewiesen werden.

Was ist eine Dataflow-Verarbeitungseinheit (Dataflow Processing Unit; DPU)?

Eine Dataflow Processing Unit (DPU) ist eine Einheit zur Dataflow-Nutzungsmessung, mit der die von Ihren Jobs genutzten Ressourcen verfolgt werden. DPUs verfolgen die Nutzung verschiedener Ressourcen, einschließlich Computing-, Arbeitsspeicher-, Festplattenspeicher-, Daten-Shuffle (bei Batch-Jobs) und verarbeiteten Streamingdaten (bei Streaming-Jobs). Bei Jobs, die mehr Ressourcen verbrauchen, ist die DPU-Auslastung im Vergleich zu Jobs, die weniger Ressourcen verbrauchen, höher. Es gibt zwar keine 1:1-Zuordnung zwischen den verschiedenen Ressourcen, die Ihr Job verbraucht, und DPU, aber 1 DPU istvergleichbar mit den Ressourcen, die von einem Dataflow-Job verwendet werden, der eine Stunde lang auf einem 1-vCPU-4-GB-Worker mit einem 250-GB-nichtflüchtigen Speicher ausgeführt wird.

Wie optimiere ich die Anzahl der Dataflow-Verarbeitungseinheiten, die von meinem Job verwendet werden?

Die Anzahl der DPUs für Ihre Jobs können Sie nicht festlegen. DPUs werden von Dataflow Prime gezählt. Sie können jedoch die Anzahl der verbrauchten DPUs reduzieren, indem Sie sich auf die folgenden Aspekte Ihres Jobs konzentrieren:

  • Reduzierung des Arbeitsspeicherverbrauchs.
  • Reduzieren Sie die Menge der nach dem Zufallsprinzip verarbeiteten Daten mithilfe von Filtern, Kombinatoren und effizienten Codern.

Sie können die Optimierungen über die Schnittstelle Dataflow-Monitoring-Oberfläche und Ausführungsdetails identifizieren.

Wie werden Dataflow-Verarbeitungseinheiten abgerechnet?

Die Gesamtzahl der von Ihrem Job während einer bestimmten Stunde verbrauchten DPUs wird Ihnen pro Sekunde in Rechnung gestellt. Der Preis für eine einzelne DPU variiert je nach Jobtyp – Batch oder Streaming.

Wie kann ich die Anzahl der Dataflow-Verarbeitungseinheiten begrenzen, die mein Job verbraucht?

Die Gesamtzahl der DPUs, die Ihr Job verbrauchen kann, ist durch die maximale Anzahl von Ressourcen beschränkt, die Ihr Job verbrauchen kann. Sie können auch die maximale Anzahl der Worker für Ihren Job festlegen, die die Anzahl der DPUs begrenzt, die Ihr Job nutzen kann.

Wie unterscheiden sich Dataflow Prime-Preise vom Dataflow-Preismodell?

Im Dataflow-Modell werden die unterschiedlichen Ressourcen in Rechnung gestellt, die von den Jobs belegt werden: vCPUs, Arbeitsspeicher, Speicher und die von Dataflow Shuffle oder Streaming Engine verarbeitete Datenmenge.

Dataflow-Verarbeitungseinheiten fassen diese Ressourcen in einer einzigen Messeinheit zusammen. Ihnen wird dann die Anzahl der verbrauchten DPU basierend auf dem Jobtyp (Batch oder Streaming) in Rechnung gestellt. Durch die Entkopplung von DPUs von physischen Ressourcen ist es leichter, die Kosten zwischen Jobs zu vergleichen und die Dataflow-Nutzung im Zeitverlauf zu verfolgen. Weitere Informationen finden Sie unter Dataflow Prime verwenden.

Was passiert mit meinen bestehenden Jobs, die das Dataflow-Preismodell verwenden?

Ihre vorhandenen Batch- und Streamingjobs werden weiterhin über das Dataflow-Modell abgerechnet. Wenn Sie Ihre Jobs zur Verwendung von Dataflow Prime aktualisieren, werden ihnen die verbrauchten DPUs in Rechnung gestellt.

Zusätzliche Jobressourcen

Neben der Nutzung von Worker-Ressourcen kann ein Job weitere Ressourcen verbrauchen, die jeweils nach ihren eigenen Preisen abgerechnet werden. Dies sind beispielsweise:

Preisangaben

Für zukünftige Releases von Dataflow gelten möglicherweise unterschiedliche Servicegebühren und/oder andere Bündelungsmöglichkeiten für zugehörige Dienste.

Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Seite Regionen und Zonen von Compute Engine.

Preise für Worker-Ressourcen

Preise für weitere Ressourcen

Die folgenden Ressourcen werden für Streaming-, Batch- und FlexRS-Jobs zum selben Preis abgerechnet.

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher

2 FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern

3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 400 GB nichtflüchtiger Speicher

4Diese Funktion ist in allen Regionen verfügbar, in denen Dataflow unterstützt wird. Informationen zu den verfügbaren Speicherorten finden Sie unter Dataflow-Standorte.

Die Dataflow Shuffle-Preise richten sich nach den Gutschriften für die Datenmenge, die in den Lese- und Schreibvorgängen beim Umverteilen Ihres Datasets verarbeitet wird. Weitere Informationen finden Sie unter Preisangaben zu Dataflow Shuffle.

5Diese Funktion ist in allen Regionen verfügbar, in denen Dataflow unterstützt wird. Informationen zu den verfügbaren Speicherorten finden Sie unter Dataflow-Standorte.

Preisangaben zu Dataflow Shuffle

Die Kosten werden pro Dataflow-Job nach Anpassung des während den Dataflow Shuffle-Vorgängen verarbeiteten Gesamtvolumens berechnet. Ihre tatsächliche Abrechnung für die verarbeiteten Dataflow Shuffle-Daten entspricht dem Standardpreis für ein kleineres Datenvolumen als dem, das in einem Dataflow-Job verarbeitet wurde. Diese Differenz ergibt sich daraus, dass der abrechenbare Dataflow Shuffle-Datenmesswert geringer ist als der gesamte Dataflow Shuffle-Datenmesswert.

In der folgenden Tabelle wird erläutert, wie diese Gutschriften angewendet werden:

In einem Job verarbeitete Daten Rechnungsgutschrift
Erste 250 GB 75 %
Nächste 4.870 GB 50 %
Weitere Daten über 5.120 GB (5 TB)

Wenn Ihre Pipeline beispielsweise insgesamt 1.024 GB (1 TB) verarbeitete Dataflow Shuffle-Daten umfasst, wird das Datenvolumen so berechnet: 250 GB × 25 % + 774 GB × 50 % = 449,5 GB × regionale Dataflow Shuffle-Datenverarbeitungsrate. Bei einer Pipeline mit insgesamt 10.240 GB (10 TB) verarbeiteten Dataflow Shuffle-Daten wird das Datenvolumen so berechnet: 250 GB × 25 % + 4.870 GB × 50 % + 5.120 GB = 7.617,5 GB.

Snapshot-Preise

Dataflow-Snapshots sind ab der General Availability-Stufe auch in anderen Regionen verfügbar.

Nutzung ansehen

Sie können sämtliche vCPU-, Arbeitsspeicher- und Persistent Disk-Ressourcen, die einem Job zugeordnet sind, mit der Google Cloud Console oder über das gcloud-Befehlszeilentool einsehen. Die Messwerte der tatsächlich und kostenpflichtig verarbeiteten Shuffle- und Streamingdaten finden Sie auf der Monitoring-Oberfläche von Dataflow. An den tatsächlich verarbeiteten Shuffle-Daten können Sie die Leistung Ihrer Pipeline ablesen und an den kostenpflichtig verarbeiteten Shuffle-Daten die Kosten des jeweiligen Dataflow-Jobs. Bei den verarbeiteten Streamingdaten sind die Messwerte für tatsächliche und kostenpflichtige Datenverarbeitung identisch.

Preisrechner

Mit dem Preisrechner der Google Cloud können Sie sich ein Bild davon machen, wie sich Ihre Rechnung zusammensetzt.

Nächste Schritte

Individuelles Angebot einholen

Mit den „Pay as you go“-Preisen von Google Cloud bezahlen Sie nur für die Dienste, die Sie nutzen. Wenden Sie sich an unser Vertriebsteam, wenn Sie ein individuelles Angebot für Ihr Unternehmen erhalten möchten.
Vertrieb kontaktieren