Cloud Dataflow

Vereinfachte Stream- und Batchdatenverarbeitung bei gleicher Zuverlässigkeit und Aussagekraft

Kostenlos testen

Schnellere Entwicklung, einfachere Verwaltung

Cloud Dataflow ist ein vollständig verwalteter Dienst zum Transformieren und Anreichern von Daten im Streammodus (für Echtzeitdaten) und im Batchmodus (für Verlaufsdaten) bei gleicher Zuverlässigkeit und Aussagekraft. Umständliche Behelfs- oder Kompromisslösungen werden damit überflüssig. Mit dem serverlosen Ansatz zur Ressourcenbereitstellung und -verwaltung haben Sie außerdem Zugriff auf praktisch unbegrenzte Kapazitäten. Somit können Sie die größten Herausforderungen bei der Datenverarbeitung meistern und zahlen dabei nur für das, was Sie tatsächlich nutzen.

Mit Cloud Dataflow eröffnen sich branchenübergreifend Anwendungsfälle für die Datenumwandlung. Dazu zählen:

  • Clickstream-, Point-of-Sale- und Segmentierungsanalyse im Einzelhandel
  • Betrugserkennung bei Finanzdienstleistungen
  • Personalisierte Nutzererfahrung im Gaming-Bereich
  • IoT-Analysen in der Fertigung, im Gesundheitswesen und in der Logistik
faster-development-easier-management

Schnellere Entwicklung für die Batch- und Streamdatenverarbeitung

Cloud Dataflow unterstützt eine schnelle, vereinfachte Pipelineentwicklung über praktische SQL, Java und Python APIs als Teil des Apache Beam SDK, das eine Vielzahl an Windowing- und Sitzungsanalyse-Primitiven sowie eine Umgebung mit Quell- und Senken-Connectors bietet. Außerdem ermöglicht Ihnen das einzigartige, einheitliche Entwicklungsmodell von Beam, mehr Code bei Streaming- und Batchpipelines wiederzuverwenden.

Bitte füllen Sie dieses Formular aus, um über die Verfügbarkeit von Dataflow SQL im Rahmen der anstehenden Alphaphase informiert zu werden. Wir melden uns bei Ihnen und geben Ihnen Bescheid, sobald Dataflow SQL genutzt werden kann.

accelerate-development-with-no-compromises

Vorgänge und Verwaltung vereinfachen

Mit dem serverlosen Ansatz der GCP entfallen operative Gemeinkosten, denn Leistung, Skalierung, Verfügbarkeit, Sicherheit und Compliance werden automatisch überwacht. Dies erlaubt Nutzern, sich auf das Programmieren statt auf die Verwaltung von Serverclustern zu konzentrieren. Die Einbindung von Stackdriver, der einheitlichen Logging- und Monitoring-Lösung der GCP, bietet Ihnen die Möglichkeit, Ihre Pipelines in Echtzeit zu überwachen und entsprechende Fehler zu beheben. Umfassende Visualisierungen, Logs und Benachrichtigungen tragen dazu bei, mögliche Probleme zu identifizieren und auf diese zu reagieren.

simplify-operations-and-management

Basis für maschinelles Lernen

Nutzen Sie mithilfe von AI Platform von Google Cloud und TensorFlow Extended (TFX) Cloud Dataflow als praktischen Integrationspunkt, um Betrugserkennung, Personalisierung in Echtzeit und ähnliche Anwendungsfälle um Vorhersageanalysen zu erweitern. TFX verwendet Cloud Dataflow und Apache Beam als Engine für die verteilte Datenverarbeitung, um verschiedene Aspekte des ML-Lebenszyklus zu realisieren.

build-on-a-foundation-for-machine-learning

Bewährte und vertraute Tools

Cloud Dataflow integriert sich nahtlos in die GCP-Dienste zum Streamen der Ereignisdatenaufnahme (Cloud Pub/Sub), für den Data-Warehouse-Prozess (BigQuery), zum maschinellen Lernen (Cloud AI Platform) und vielem mehr. Mit dem Beam-basierten SDK können Entwickler außerdem benutzerdefinierte Erweiterungen erstellen und sogar alternative Ausführungs-Engines wie Apache Spark auswählen. Nutzern von Apache Kafka ermöglicht ein Cloud Dataflow-Connector die einfache Verknüpfung mit der GCP.

use-your-favorite-and-familiar-tools

Daten mit Cloud Dataflow umwandeln

diagram-dataflow

VORTEILE VON CLOUD DATAFLOW

Automatisierte Ressourcenverwaltung
Cloud Dataflow automatisiert die Bereitstellung und Verwaltung von Verarbeitungsressourcen, sodass die Latenz minimiert und die Auslastung maximiert wird. Instanzen müssen nicht mehr manuell erstellt oder reserviert werden.
Dynamischer Arbeitsausgleich
Eine automatisierte und optimierte Arbeitsaufteilung gleicht Arbeitsverzögerungen dynamisch aus. Sie müssen nicht mehr nach "Hot-Schlüsseln" suchen, bei denen es durch hohe Aufrufraten zu Verzögerungen kommt, oder Ihre Eingabedaten vorverarbeiten.
Zuverlässige und einheitliche, genau einmalige Verarbeitung
Cloud Dataflow bietet integrierten Support für fehlertolerante Ausführung, die sowohl konsistent als auch genau ist – unabhängig von Datengröße, Clustergröße, Verarbeitungsmuster oder Pipelinekomplexität.
Horizontales Autoscaling
Durch das horizontale Autoscaling von Worker-Ressourcen zwecks Optimierung des Durchsatzes wird das gesamte Preis-Leistungs-Verhältnis verbessert.
Einheitliches Programmiermodell
Das Apache Beam-SDK bietet MapReduce nachgebildete Prozesse mit gleichwertigem Funktionsumfang, eine leistungsfähige Datenfenstertechnik und detaillierte Kontrollen auf Fehlerfreiheit für Streaming- und Batchdaten.
Innovation als Produkt der Community
Entwickler können Forks erstellen und/oder einen Beitrag zu Apache Beam leisten, um das Cloud Dataflow-Programmiermodell zu erweitern.
Flexible Ressourcenpreisplanung für die Batchverarbeitung
Zur flexiblen Verarbeitung im Rahmen der zeitlichen Planung von Jobs, zum Beispiel über Nacht, ergibt sich mit der flexiblen Ressourcenplanung ein günstigerer Preis für die Batchverarbeitung. Diese flexiblen Jobs werden in einer Warteschlange mit der Garantie platziert, dass sie innerhalb von sechs Stunden abgerufen und ausgeführt werden.

Cloud Dataflow oder Cloud Dataproc: Was passt besser?

Sowohl Cloud Dataproc als auch Cloud Dataflow können für die Datenverarbeitung verwendet werden, wobei sie sich in ihren Batch- und Streamingfunktionen überschneiden. Wie entscheiden Sie, welches Produkt sich besser für Ihre Umgebung eignet?
Dataproc und Dataflow im Vergleich

Cloud Dataproc

Cloud Dataproc eignet sich für Umgebungen, die von bestimmten Komponenten der Apache-Big-Data-Umgebung abhängen:

  • Tools/Pakete
  • Pipelines
  • Fähigkeiten der vorhandenen Ressourcen

Cloud Dataflow

Cloud Dataflow ist in der Regel die bevorzugte Option für Greenfield-Umgebungen:

  • Weniger operativer Aufwand
  • Einheitlicher Ansatz für die Entwicklung von Batch- oder Streamingpipelines
  • Verwendung von Apache Beam
  • Unterstützung der Pipelineportabilität über Cloud Dataflow, Apache Spark und Apache Flink als Laufzeiten

Empfohlene Arbeitslasten

ARBEITSLASTEN CLOUD DATAPROC CLOUD DATAFLOW
Streamverarbeitung (ETL)
Batchverarbeitung (ETL)
Iterative Verarbeitung und Notebooks
Maschinelles Lernen mit Spark ML
Maschinelles Lernen mit Cloud AI Platform und TensorFlow Extended (TFX)

Partnerschaften und Integrationen

Partner und externe Entwickler der Google Cloud Platform haben Integrationen mit Dataflow entwickelt, damit Sie schnell und einfach leistungsstarke Datenverarbeitungsaufgaben einer beliebigen Größenordnung ausführen können.

ClearStory

Cloudera

DataArtisans

Salesforce

 

SpringML

tamr

"Weil unsere Pipelines jetzt auf Cloud Dataflow ausgeführt werden, können wir uns auf das Programmieren konzentrieren und müssen uns keine Gedanken mehr über die Bereitstellung und Verwaltung von Instanzen machen, die unseren Code ausführen (was ein besonderes Merkmal der GCP ist)."

– Jibran Saithi Lead Architect bei Qubit

Nutzerfreundliche Preise

Die Abrechnung von Cloud Dataflow-Jobs erfolgt pro Sekunde und anhand der tatsächlichen Nutzung der Batch- und Streaming-Worker von Cloud Dataflow. Jobs, die zusätzliche GCP-Ressourcen in Anspruch nehmen, wie Cloud Storage oder Cloud Pub/Sub, werden nach den Preisen für diese Dienste abgerechnet.

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher

2 FlexRS-Worker-Standardeinstellungen: 2 vCPUs, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern

3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 420 GB nichtflüchtiger Speicher

4 Dataflow Shuffle steht für Batchpipelines derzeit in den folgenden Regionen zur Verfügung:

  • us-central1 (Iowa)
  • us-east1 (South Carolina)
  • us-west1 (Oregon)
  • europe-west1 (Belgien)
  • europe-west4 (Niederlande)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tokio)

Der Dienst wird künftig auch in anderen Regionen verfügbar sein.

5 Dataflow Streaming Engine nutzt die Preiseinheit für verarbeitete Streamingdaten. Streaming Engine ist derzeit in den folgenden Regionen verfügbar:

  • us-central1 (Iowa)
  • us-east1 (South Carolina)
  • us-west1 (Oregon)
  • europe-west1 (Belgien)
  • europe-west4 (Niederlande)
  • asia-east1 (Taiwan)
  • asia-northeast1 (Tokio)
Der Dienst wird künftig auch in anderen Regionen verfügbar sein.

6 Weitere Informationen zu verarbeiteten Daten finden Sie unter Cloud Dataflow – Preise.

Cloud KI-Produkte entsprechen den hier aufgeführten SLA-Richtlinien. Sie bieten eventuell von anderen Google Cloud-Diensten abweichende Latenz- oder Verfügbarkeitsgarantien.