Dataflow – Preise

Auf dieser Seite werden die Preise für Dataflow beschrieben. Informationen zu den Preisen anderer Produkte finden Sie in der Preisliste.

Preisübersicht

Der Preis wird zwar pro Stunde angegeben, die Abrechnung für die Nutzung des Dataflow-Dienstes erfolgt jedoch pro Sekunde und Job. Die Nutzung wird in Stunden angegeben (30 Minuten sind beispielsweise 0,5 Stunden), damit trotz sekundengenauer Abrechnung ein Preis pro Stunde abgerechnet wird. Worker und Jobs können Ressourcen wie in den folgenden Abschnitten beschrieben nutzen. Dataflow-Logs werden nicht abgerechnet.

Worker und Worker-Ressourcen

Jeder Dataflow-Job verwendet mindestens einen Dataflow-Worker. Der Dataflow-Dienst bietet zwei Worker-Typen: Batch und Streaming. Für Batch- und Streaming-Worker gelten unterschiedliche Servicegebühren.

Dataflow-Worker nutzen die folgenden Ressourcen, die jeweils pro Sekunde abgerechnet werden:

Batch- und Streaming-Worker sind spezialisierte Ressourcen, die Compute Engine nutzen. Allerdings gibt ein Dataflow-Job keine Compute Engine-Abrechnung für Compute Engine-Ressourcen aus, die vom Dataflow-Dienst verwaltet werden. Stattdessen wird die Nutzung dieser Compute Engine-Ressourcen den Gebühren für den Dataflow-Dienst zugeschlagen.

Sie können die standardmäßige Anzahl der Worker für einen Job überschreiben. Wenn Sie Autoscaling verwenden, können Sie die maximale Anzahl der Worker angeben, die einem Job zugewiesen werden sollen. Worker und entsprechende Ressourcen werden automatisch hinzugefügt und entfernt, je nachdem, ob Autoscaling aktiviert ist.

Darüber hinaus können Sie Pipeline-Optionen verwenden, um die jedem Worker zugewiesenen Standardressourceneinstellungen (Maschinentyp, Laufwerkstyp und Laufwerksgröße) zu überschreiben und GPUs zu verwenden.

Dataflow-Dienste

Beim Shuffle-Vorgang von Dataflow werden Daten nach Schlüsseln auf skalierte, effiziente und fehlertolerante Weise partitioniert und gruppiert. Standardmäßig verwendet Dataflow eine Shuffle-Implementierung, die komplett auf virtuellen Worker-Maschinen ausgeführt wird und dabei die CPU, den Arbeitsspeicher und den Persistent Disk-Speicher der Worker nutzt.

Dataflow bietet außerdem ein optionales, hoch skalierbares Feature namens Dataflow Shuffle. Es steht nur für Batchpipelines zur Verfügung und verteilt Daten ohne die Hilfe von Workern nach dem Zufallsprinzip um. Die Shuffle-Nutzung wird nach der Menge der verarbeiteten Daten abgerechnet. Sie können Dataflow anweisen, Shuffle einzusetzen, indem Sie den Shuffle-Pipelineparameter angeben.

Ähnlich wie Shuffle verschiebt Dataflow Streaming Engine Streaming-Shuffle und Statusverarbeitung aus den Worker-VMs in das Dienst-Back-End von Dataflow. Mit dem Streaming Engine-Pipelineparameter weisen Sie Dataflow an, Streaming Engine für Ihre Streamingpipelines zu verwenden. Die Streaming Engine-Nutzung wird nach der Menge der verarbeiteten Streamingdaten abgerechnet. Diese hängt wiederum von der in die Streamingpipeline aufgenommenen Datenmenge und der Komplexität und Anzahl der Pipelinestufen ab. Als verarbeitete Bytes gelten beispielsweise Eingabeflüsse aus Datenquellen, Datenflüsse von einer zusammengefassten Pipelinestufe zu einer anderen zusammengefassten Stufe, in einem benutzerdefinierten Status erhaltene Datenflüsse oder für Windowing-Zwecke genutzte Datenflüsse und Ausgabenachrichten an Datensenken wie Pub/Sub oder BigQuery.

Dataflow bietet auch eine Option mit ermäßigten CPU- und Speicherpreisen für die Batchverarbeitung. Flexible Resource Scheduling (FlexRS) vereint reguläre VMs und VMs auf Abruf in einem einzigen Dataflow-Worker-Pool, sodass Nutzer Zugriff auf kostengünstigere Verarbeitungsressourcen erhalten. FlexRS verzögert außerdem die Ausführung eines Batch-Dataflow-Jobs innerhalb eines Zeitraums von 6 Stunden, um den besten Zeitpunkt für den Start des Jobs je nach den verfügbaren Ressourcen zu ermitteln. Während Dataflow eine Kombination von Workern zur Ausführung eines FlexRS-Jobs verwendet, wird Ihnen unabhängig vom Worker-Typ ein einheitlicher ermäßigter Preis im Vergleich zu den regulären Dataflow-Preisen berechnet. Sie weisen Dataflow mit dem Parameter FlexRS an, FlexRS für Ihre automatisch skalierten Batchpipelines zu verwenden.

Damit Sie die Zuverlässigkeit Ihrer Streaming-Pipelines verwalten können, ermöglichen Ihnen Dataflow-Snapshots, Ihren Pipelinestatus zu speichern und wiederherzustellen. Die Snapshot-Nutzung wird nach der Menge der gespeicherten Daten abgerechnet. Diese hängt wiederum von der in die Streamingpipeline aufgenommenen Datenmenge, der Windowing-Logik und der Anzahl der Pipelinestufen ab. Sie können einen Snapshot Ihres Streaming-Jobs über die Dataflow-Web-UI oder das gcloud-Befehlszeilentool erstellen. Für das Erstellen eines Jobs aus Ihrem Snapshot fallen keine zusätzlichen Kosten an, um den Zustand Ihrer Pipeline wiederherzustellen. Weitere Informationen finden Sie unter Dataflow-Snapshots verwenden.

Zusätzliche Jobressourcen

Neben der Nutzung von Worker-Ressourcen kann ein Job weitere Ressourcen verbrauchen, die jeweils nach ihren eigenen Preisen abgerechnet werden. Dies sind beispielsweise:

Preisangaben

Für zukünftige Releases von Dataflow gelten möglicherweise unterschiedliche Servicegebühren und/oder andere Bündelungsmöglichkeiten für zugehörige Dienste.

Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Seite Regionen und Zonen von Compute Engine.

Preise für Worker-Ressourcen

Preise für andere Ressourcen

Die folgenden Ressourcen werden für Streaming-, Batch- und FlexRS-Jobs zum selben Preis abgerechnet.

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher

2 FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern

3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 420 GB nichtflüchtiger Speicher

4 Diese Funktion ist in allen Regionen verfügbar, in denen Dataflow unterstützt wird. Informationen zu den verfügbaren Standorten finden Sie unter Dataflow-Standorte.

Die Dataflow Shuffle-Preise richten sich nach den Gutschriften für die Datenmenge, die in den Lese- und Schreibvorgängen beim Umverteilen Ihres Datasets verarbeitet wird. Weitere Informationen finden Sie unter Preisangaben zu Dataflow Shuffle.

5 Diese Funktion ist in allen Regionen verfügbar, in denen Dataflow unterstützt wird. Informationen zu den verfügbaren Standorten finden Sie unter Dataflow-Standorte.

Preisangaben zu Dataflow Shuffle

Die Kosten werden pro Dataflow-Job nach Anpassung des während den Dataflow Shuffle-Vorgängen verarbeiteten Gesamtvolumens berechnet. Ihre tatsächliche Abrechnung für die verarbeiteten Dataflow Shuffle-Daten entspricht dem Standardpreis für ein kleineres Datenvolumen als dem, das in einem Dataflow-Job verarbeitet wurde. Diese Differenz ergibt sich daraus, dass der abrechenbare Dataflow Shuffle-Datenmesswert geringer ist als der gesamte Dataflow Shuffle-Datenmesswert.

In der folgenden Tabelle wird erläutert, wie diese Gutschriften angewendet werden:

In einem Job verarbeitete Daten Rechnungsgutschrift
Erste 250 GB 75 %
Nächste 4.870 GB 50 %
Weitere Daten über 5.120 GB (5 TB)

Wenn Ihre Pipeline beispielsweise insgesamt 1.024 GB (1 TB) verarbeitete Dataflow Shuffle-Daten umfasst, wird das Datenvolumen so berechnet: 250 GB × 25 % + 774 GB × 50 % = 449,5 GB × regionale Dataflow Shuffle-Datenverarbeitungsrate. Bei einer Pipeline mit insgesamt 10.240 GB (10 TB) verarbeiteten Dataflow Shuffle-Daten wird das Datenvolumen so berechnet: 250 GB × 25 % + 4.870 GB × 50 % + 5.120 GB = 7.617,5 GB.

Snapshot-Preise

Dataflow-Snapshots sind ab der General Availability-Stufe auch in anderen Regionen verfügbar.

Nutzung ansehen

Sie können sämtliche vCPU-, Arbeitsspeicher- und Persistent Disk-Ressourcen, die einem Job zugeordnet sind, mit der Google Cloud Console oder über das gcloud-Befehlszeilentool einsehen. Die Messwerte der tatsächlich und kostenpflichtig verarbeiteten Shuffle- und Streamingdaten finden Sie auf der Monitoring-Oberfläche von Dataflow. An den tatsächlich verarbeiteten Shuffle-Daten können Sie die Leistung Ihrer Pipeline ablesen und an den kostenpflichtig verarbeiteten Shuffle-Daten die Kosten des jeweiligen Dataflow-Jobs. Bei den verarbeiteten Streamingdaten sind die Messwerte für tatsächliche und kostenpflichtige Datenverarbeitung identisch.

Preisrechner

Mit dem Preisrechner der Google Cloud können Sie sich ein Bild davon machen, wie sich Ihre Rechnung zusammensetzt.