Dataflow – Preise

Diese Seite beschreibt die Preise für Dataflow. Informationen zu den Preisen anderer Produkte finden Sie in der Preisliste.

Preisübersicht

Der Preis wird zwar pro Stunde angegeben, die Abrechnung für die Nutzung des Dataflow-Dienstes erfolgt jedoch pro Sekunde und Job. Die Nutzung wird in Stunden angegeben (30 Minuten sind beispielsweise 0,5 Stunden), damit trotz sekundengenauer Abrechnung ein Preis pro Stunde abgerechnet wird. Worker und Jobs können Ressourcen wie in den folgenden Abschnitten beschrieben nutzen.

Worker und Worker-Ressourcen

Jeder Dataflow-Job verwendet mindestens einen Dataflow-Worker. Der Dataflow-Dienst bietet zwei Worker-Typen: Batch und Streaming. Für Batch- und Streaming-Worker gelten unterschiedliche Dienstgebühren.

Dataflow-Worker nutzen die folgenden Ressourcen, die jeweils pro Sekunde abgerechnet werden:

Batch- und Streaming-Worker sind spezialisierte Ressourcen, die Compute Engine nutzen. Allerdings gibt ein Dataflow-Job keine Compute Engine-Abrechnung für Compute Engine-Ressourcen aus, die vom Dataflow-Dienst verwaltet werden. Stattdessen wird die Nutzung dieser Compute Engine-Ressourcen den Gebühren für den Dataflow-Dienst zugeschlagen.

Sie können die standardmäßige Anzahl der Worker für einen Job überschreiben. Wenn Sie Autoscaling verwenden, können Sie die maximale Anzahl der Worker angeben, die einem Job zugewiesen werden sollen. Worker und entsprechende Ressourcen werden automatisch hinzugefügt und entfernt, je nachdem, ob Autoscaling aktiviert ist.

Darüber hinaus können Sie Pipeline-Optionen verwenden, um die jedem Worker zugewiesenen Standardressourceneinstellungen (Maschinentyp, Laufwerkstyp und Laufwerksgröße) zu überschreiben.

Dataflow-Dienste

Beim Shuffle-Vorgang von Dataflow werden Daten nach Schlüsseln auf skalierte, effiziente und fehlertolerante Weise partitioniert und gruppiert. Standardmäßig verwendet Dataflow eine Shuffle-Implementierung, die komplett auf virtuellen Worker-Maschinen ausgeführt wird und dabei die CPU, den Arbeitsspeicher und nichtflüchtigen Speicher der Worker nutzt.

Dataflow bietet außerdem ein optionales, hoch skalierbares Feature namens Dataflow Shuffle. Es steht nur für Batchpipelines zur Verfügung und verteilt Daten ohne die Hilfe von Workern nach dem Zufallsprinzip um. Die Shuffle-Nutzung wird nach der Menge der verarbeiteten Daten abgerechnet. Sie können Dataflow anweisen, Shuffle einzusetzen, indem Sie den Shuffle-Pipelineparameter angeben.

Ähnlich wie Shuffle verschiebt Dataflow Streaming Engine Streaming-Shuffle und Statusverarbeitung aus den Worker-VMs in das Dienst-Back-End von Dataflow. Mit dem Streaming Engine-Pipelineparameter weisen Sie Dataflow an, Streaming Engine für Ihre Streamingpipelines zu verwenden. Die Streaming Engine-Nutzung wird nach der Menge der verarbeiteten Streamingdaten abgerechnet. Diese hängt wiederum von der in die Streamingpipeline aufgenommenen Datenmenge und der Komplexität und Anzahl der Pipelinestufen ab. Als verarbeitete Byte gelten beispielsweise Eingabeflüsse aus Datenquellen, Datenflüsse von einer zusammengefassten Pipelinestufe zu einer anderen zusammengefassten Stufe, in einem benutzerdefinierten Status erhaltene Datenflüsse oder für Windowing-Zwecke genutzte Datenflüsse und Ausgabenachrichten an Datensenken wie Pub/Sub oder BigQuery.

Dataflow bietet auch eine Option mit ermäßigten CPU- und Speicherpreisen für die Batchverarbeitung. Flexible Resource Scheduling (FlexRS) vereint reguläre VMs und VMs auf Abruf in einem einzigen Dataflow-Worker-Pool, sodass Nutzer Zugriff auf kostengünstigere Verarbeitungsressourcen erhalten. FlexRS verzögert außerdem die Ausführung eines Batch-Dataflow-Jobs innerhalb eines Zeitraums von 6 Stunden, um den besten Zeitpunkt für den Start des Jobs je nach den verfügbaren Ressourcen zu ermitteln. Während Dataflow eine Kombination von Workern zur Ausführung eines FlexRS-Jobs verwendet, wird Ihnen unabhängig vom Worker-Typ ein einheitlicher ermäßigter Preis im Vergleich zu den regulären Dataflow-Preisen berechnet. Sie weisen Dataflow mit dem Parameter FlexRS an, FlexRS für Ihre automatisch skalierten Batchpipelines zu verwenden.

Zusätzliche Jobressourcen

Außer Worker-Ressourcen kann ein Job weitere Ressourcen nutzen, die jeweils nach ihren eigenen Preisen abgerechnet werden. Dies sind beispielsweise:

Preisangaben

Für zukünftige Releases von Dataflow gelten möglicherweise unterschiedliche Dienstgebühren und/oder andere Bündelungsmöglichkeiten für zugehörige Dienste.

Weitere Informationen zu den verfügbaren Regionen und ihren Zonen finden Sie auf der Seite Regionen und Zonen von Compute Engine.

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher

2 FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern

3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 420 GB nichtflüchtiger Speicher

4 Dataflow Shuffle steht für Batchpipelines derzeit in den folgenden Regionen zur Verfügung:

  • us-west1 (Oregon)
  • us-central1 (Iowa)
  • us-east1 (South Carolina)
  • us-east4 (Northern Virginia)
  • europe-west2 (London)
  • europe-west1 (Belgien)
  • europe-west4 (Niederlande)
  • europe-west3 (Frankfurt)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tokio)

Der Dienst wird künftig auch in anderen Regionen verfügbar sein.

5 Dataflow Streaming Engine nutzt die Preiseinheit für verarbeitete Streamingdaten. Streaming Engine ist derzeit in diesen Regionen verfügbar:

  • us-west1 (Oregon)
  • us-central1 (Iowa)
  • us-east1 (South Carolina)
  • us-east4 (Northern Virginia)
  • europe-west2 (London)
  • europe-west1 (Belgien)
  • europe-west4 (Niederlande)
  • europe-west3 (Frankfurt)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tokio)
Der Dienst wird künftig auch in anderen Regionen verfügbar sein.

6 Die Nutzung von Shuffle wird nach der Datenmenge abgerechnet, die die Infrastruktur des Dataflow-Dienstes beim Umverteilen des Datasets liest und schreibt. Als weiteren Anreiz für die Nutzung des servicebasierten Shuffle-Angebots wird für die ersten 5 TB an verarbeiteten Shuffle-Daten der Preis um 50 % gesenkt. Wenn Ihre Pipeline beispielsweise insgesamt 1 TB verarbeitete Shuffle-Daten aufweist, werden Ihnen nur 50 % dieser Datenmenge (0,5 TB) in Rechnung gestellt. Umfassen die tatsächlich verarbeiteten Shuffle-Daten für Ihre Pipeline 10 TB, werden nur 7,5 TB abgerechnet, da für die ersten 5 TB der um 50 % reduzierte Preis gilt.

Nutzung ansehen

Sie können sämtliche vCPU-, Arbeitsspeicher- und nichtflüchtigen Speicherressourcen, die einem Job zugeordnet sind, mit der Google Cloud Console oder über das gcloud-Befehlszeilentool einsehen. Die Messwerte der tatsächlich und kostenpflichtig verarbeiteten Shuffle- und Streamingdaten finden Sie auf der Monitoring-Oberfläche von Dataflow. An den tatsächlich verarbeiteten Shuffle-Daten können Sie die Leistung Ihrer Pipeline ablesen und an den kostenpflichtig verarbeiteten Shuffle-Daten die Kosten des jeweiligen Dataflow-Jobs. Bei den verarbeiteten Streamingdaten sind die Messwerte für tatsächliche und kostenpflichtige Datenverarbeitung identisch.

Preisrechner

Mit dem Preisrechner der Google Cloud können Sie sich ein Bild davon machen, wie sich Ihre Rechnung zusammensetzt.