Dataflow – Preise

Diese Seite beschreibt die Preise für Dataflow. Informationen zu den Preisen anderer Produkte finden Sie in der Preisliste.

Preisübersicht

Der Preis wird zwar pro Stunde angegeben, die Abrechnung für die Nutzung des Dataflow-Dienstes erfolgt jedoch pro Sekunde und Job. Die Nutzung wird in Stunden angegeben (30 Minuten sind beispielsweise 0,5 Stunden), damit trotz sekundengenauer Abrechnung ein Preis pro Stunde abgerechnet wird. Worker und Jobs können Ressourcen wie in den folgenden Abschnitten beschrieben nutzen.

Worker und Worker-Ressourcen

Jeder Dataflow-Job verwendet mindestens einen Dataflow-Worker. Der Dataflow-Dienst bietet zwei Worker-Typen: Batch und Streaming. Für Batch- und Streaming-Worker gelten unterschiedliche Servicegebühren.

Dataflow-Worker nutzen die folgenden Ressourcen, die jeweils pro Sekunde abgerechnet werden:

Batch- und Streaming-Worker sind spezialisierte Ressourcen, die Compute Engine nutzen. Allerdings gibt ein Dataflow-Job keine Compute Engine-Abrechnung für Compute Engine-Ressourcen aus, die vom Dataflow-Dienst verwaltet werden. Stattdessen wird die Nutzung dieser Compute Engine-Ressourcen den Gebühren für den Dataflow-Dienst zugeschlagen.

Sie können die standardmäßige Anzahl der Worker für einen Job überschreiben. Wenn Sie Autoscaling verwenden, können Sie die maximale Anzahl der Worker angeben, die einem Job zugewiesen werden sollen. Worker und entsprechende Ressourcen werden automatisch hinzugefügt und entfernt, je nachdem, ob Autoscaling aktiviert ist.

Darüber hinaus können Sie Pipeline-Optionen verwenden, um die jedem Worker zugewiesenen Standardressourceneinstellungen (Maschinentyp, Laufwerkstyp und Laufwerksgröße) zu überschreiben.

Dataflow-Dienste

Beim Shuffle-Vorgang von Dataflow werden Daten nach Schlüsseln auf skalierte, effiziente und fehlertolerante Weise partitioniert und gruppiert. Standardmäßig verwendet Dataflow eine Shuffle-Implementierung, die komplett auf virtuellen Worker-Maschinen ausgeführt wird und dabei die CPU, den Arbeitsspeicher und den Persistent Disk-Speicher der Worker nutzt.

Dataflow bietet außerdem ein optionales, hoch skalierbares Feature namens Dataflow Shuffle. Es steht nur für Batchpipelines zur Verfügung und verteilt Daten ohne die Hilfe von Workern nach dem Zufallsprinzip um. Die Shuffle-Nutzung wird nach der Menge der verarbeiteten Daten abgerechnet. Sie können Dataflow anweisen, Shuffle einzusetzen, indem Sie den Shuffle-Pipelineparameter angeben.

Ähnlich wie Shuffle verschiebt Dataflow Streaming Engine Streaming-Shuffle und Statusverarbeitung aus den Worker-VMs in das Dienst-Back-End von Dataflow. Mit dem Streaming Engine-Pipelineparameter weisen Sie Dataflow an, Streaming Engine für Ihre Streamingpipelines zu verwenden. Die Streaming Engine-Nutzung wird nach der Menge der verarbeiteten Streamingdaten abgerechnet. Diese hängt wiederum von der in die Streamingpipeline aufgenommenen Datenmenge und der Komplexität und Anzahl der Pipelinestufen ab. Als verarbeitete Bytes gelten beispielsweise Eingabeflüsse aus Datenquellen, Datenflüsse von einer zusammengefassten Pipelinestufe zu einer anderen zusammengefassten Stufe, in einem benutzerdefinierten Status erhaltene Datenflüsse oder für Windowing-Zwecke genutzte Datenflüsse und Ausgabenachrichten an Datensenken wie Pub/Sub oder BigQuery.

Dataflow bietet auch eine Option mit ermäßigten CPU- und Speicherpreisen für die Batchverarbeitung. Flexible Resource Scheduling (FlexRS) vereint reguläre VMs und VMs auf Abruf in einem einzigen Dataflow-Worker-Pool, sodass Nutzer Zugriff auf kostengünstigere Verarbeitungsressourcen erhalten. FlexRS verzögert außerdem die Ausführung eines Batch-Dataflow-Jobs innerhalb eines Zeitraums von 6 Stunden, um den besten Zeitpunkt für den Start des Jobs je nach den verfügbaren Ressourcen zu ermitteln. Während Dataflow eine Kombination von Workern zur Ausführung eines FlexRS-Jobs verwendet, wird Ihnen unabhängig vom Worker-Typ ein einheitlicher ermäßigter Preis im Vergleich zu den regulären Dataflow-Preisen berechnet. Sie weisen Dataflow mit dem Parameter FlexRS an, FlexRS für Ihre automatisch skalierten Batchpipelines zu verwenden.

Zusätzliche Jobressourcen

Außer Worker-Ressourcen kann ein Job weitere Ressourcen nutzen, die jeweils nach ihren eigenen Preisen abgerechnet werden. Dies sind beispielsweise:

Preisangaben

Für zukünftige Releases von Dataflow gelten möglicherweise unterschiedliche Servicegebühren und/oder andere Bündelungsmöglichkeiten für zugehörige Dienste.

Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Seite Regionen und Zonen von Compute Engine.

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher

2 FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern

3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 420 GB nichtflüchtiger Speicher

4 Dataflow Shuffle steht für Batchpipelines derzeit in den folgenden Regionen zur Verfügung:

  • us-west1 (Oregon)
  • us-central1 (Iowa)
  • us-east1 (South Carolina)
  • us-east4 (Northern Virginia)
  • northamerica-northeast1 (Montreal)
  • europe-west2 (London)
  • europe-west1 (Belgien)
  • europe-west4 (Niederlande)
  • europe-west3 (Frankfurt)
  • asia-southeast1 (Singapur)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tokio)
  • australia-southeast1 (Sydney)

Der Dienst wird künftig auch in anderen Regionen verfügbar sein.

Die Dataflow Shuffle-Preise richten sich nach den Gutschriften für die Datenmenge, die in den Lese- und Schreibvorgängen beim Umverteilen Ihres Datasets verarbeitet wird. Weitere Informationen finden Sie unter Preisangaben zu Dataflow Shuffle.

5 Dataflow Streaming Engine nutzt die Preiseinheit für verarbeitete Streamingdaten. Streaming Engine ist derzeit in diesen Regionen verfügbar:

  • us-west1 (Oregon)
  • us-central1 (Iowa)
  • us-east1 (South Carolina)
  • us-east4 (Northern Virginia)
  • northamerica-northeast1 (Montreal)
  • europe-west2 (London)
  • europe-west1 (Belgien)
  • europe-west4 (Niederlande)
  • europe-west3 (Frankfurt)
  • asia-southeast1 (Singapur)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tokio)
  • australia-southeast1 (Sydney)
Der Dienst wird künftig auch in anderen Regionen verfügbar sein.

Preisangaben zu Dataflow Shuffle

Die Kosten werden pro Dataflow-Job nach Anpassung des während den Dataflow Shuffle-Vorgängen verarbeiteten Gesamtvolumens berechnet. Ihre tatsächliche Abrechnung für die verarbeiteten Dataflow Shuffle-Daten entspricht dem Standardpreis für ein kleineres Datenvolumen als dem, das in einem Dataflow-Job verarbeitet wurde. Diese Differenz ergibt sich daraus, dass der abrechenbare Dataflow Shuffle-Datenmesswert geringer ist als der gesamte Dataflow Shuffle-Datenmesswert.

In der folgenden Tabelle wird erläutert, wie diese Gutschriften angewendet werden:

In einem Job verarbeitete Daten Rechnungsgutschrift
Erste 250 GB 75 %
Nächste 4.870 GB 50 %
Weitere Daten über 5.120 GB (5 TB)

Wenn Ihre Pipeline beispielsweise insgesamt 1.024 GB (1 TB) verarbeitete Dataflow Shuffle-Daten umfasst, wird das Datenvolumen so berechnet: 250 GB × 25 % + 774 GB × 50 % = 449,5 GB × regionale Dataflow Shuffle-Datenverarbeitungsrate. Bei einer Pipeline mit insgesamt 10.240 GB (10 TB) verarbeiteten Dataflow Shuffle-Daten wird das Datenvolumen so berechnet: 250 GB × 25 % + 4.870 GB × 50 % + 5.120 GB = 7.617,5 GB.

Nutzung ansehen

Sie können sämtliche vCPU-, Arbeitsspeicher- und Persistent Disk-Ressourcen, die einem Job zugeordnet sind, mit der Google Cloud Console oder über das gcloud-Befehlszeilentool einsehen. Die Messwerte der tatsächlich und kostenpflichtig verarbeiteten Shuffle- und Streamingdaten finden Sie auf der Monitoring-Oberfläche von Dataflow. An den tatsächlich verarbeiteten Shuffle-Daten können Sie die Leistung Ihrer Pipeline ablesen und an den kostenpflichtig verarbeiteten Shuffle-Daten die Kosten des jeweiligen Dataflow-Jobs. Bei den verarbeiteten Streamingdaten sind die Messwerte für tatsächliche und kostenpflichtige Datenverarbeitung identisch.

Preisrechner

Mit dem Preisrechner der Google Cloud können Sie sich ein Bild davon machen, wie sich Ihre Rechnung zusammensetzt.