Cloud Dataflow

Vereinfachte Stream- und Batch-Datenverarbeitung bei gleicher Zuverlässigkeit und Aussagekraft

Kostenlos testen

Schnellere Entwicklung, einfachere Verwaltung

Cloud Dataflow ist ein vollständig verwalteter Dienst für die Umwandlung und Anreicherung von Daten im Streammodus (für Echtzeitdaten) und im Batchmodus (für Verlaufsdaten) bei gleicher Zuverlässigkeit und Aussagekraft. Umständliche Behelfs- oder Kompromisslösungen werden damit überflüssig. Mit dem serverlosen Ansatz zur Ressourcenbereitstellung und -verwaltung haben Sie außerdem Zugriff auf praktisch unbegrenzte Kapazitäten. Somit können Sie die größten Herausforderungen bei der Datenverarbeitung meistern und zahlen dabei nur für das, was Sie tatsächlich nutzen.

Mit Cloud Dataflow eröffnen sich branchenübergreifend Einsatzbereiche für die Datenumwandlung. Dazu zählen:

  • Clickstream-, Point-of-Sale- und Segmentierungsanalyse im Einzelhandel
  • Betrugserkennung bei Finanzdienstleistungen
  • Personalisiertes Gaming
  • IdD-Analysen in der Fertigung, im Gesundheitswesen und in der Logistik
faster-development-easier-management

Schnellere Entwicklung für die Batch- und Streamdatenverarbeitung

Cloud Dataflow unterstützt eine schnelle, vereinfachte Pipelineentwicklung über praktische SQL, Java und Python APIs als Teil des Apache Beam SDK, das eine Vielzahl an Windowing- und Sitzungsanalyse-Primitiven sowie eine Umgebung mit Quell- und Senkenconnectors bietet. Außerdem ermöglicht Ihnen das einzigartige, einheitliche Entwicklungsmodell von Beam, mehr Code bei Streaming- und Batchpipelines wiederzuverwenden.

Bitte füllen Sie dieses Formular aus, um über die Verfügbarkeit von Dataflow SQL im Rahmen der anstehenden Alphaphase informiert zu werden. Wir melden uns bei Ihnen und geben Ihnen Bescheid, sobald Dataflow SQL genutzt werden kann.

accelerate-development-with-no-compromises

Vorgänge und Verwaltung vereinfachen

Mit dem serverlosen Ansatz der GCP entfallen operative Gemeinkosten, denn Leistung, Skalierung, Verfügbarkeit, Sicherheit und Compliance werden automatisch überwacht. Dies erlaubt Nutzern, sich auf das Programmieren statt auf die Verwaltung von Serverclustern zu konzentrieren. Die Integration mit Stackdriver, der einheitlichen Logging- und Monitoring-Lösung der GCP, bietet Ihnen die Möglichkeit, Ihre Pipelines in Echtzeit zu überwachen und entsprechende Fehler zu beheben. Umfassende Visualisierungen, Logs und Benachrichtigungen tragen dazu bei, mögliche Probleme zu identifizieren und auf diese zu reagieren.

simplify-operations-and-management

Basis für maschinelles Lernen

Nutzen Sie Cloud Dataflow als praktischen Integrationspunkt, um Betrugserkennung, Personalisierung in Echtzeit und ähnliche Anwendungsfälle um Vorhersageanalysen zu erweitern, indem Sie Ihren Pipelines zur Datenverarbeitung Cloud Machine Learning-Modelle und APIs hinzufügen, die auf TensorFlow basieren.

build-on-a-foundation-for-machine-learning

Bewährte und vertraute Tools

Cloud Dataflow lässt sich nahtlos in GCP-Dienste für das Streamen der Ereignisdatenaufnahme (Cloud Pub/Sub), für Data-Warehouse-Prozesse (BigQuery), für maschinelles Lernen (Cloud Machine Learning) und vieles mehr integrieren. Mithilfe des auf Beam basierenden SDK können Entwickler außerdem individuelle Erweiterungen erstellen und sogar alternative Ausführungsmaschinen auswählen, wie etwa Apache Spark über Cloud Dataproc oder lokale Maschinen. Nutzern von Apache Kafka ermöglicht ein Cloud Dataflow-Connector die einfache Verknüpfung mit der GCP.

use-your-favorite-and-familiar-tools

Daten mit Cloud Dataflow umwandeln

diagram-dataflow

VORTEILE VON CLOUD DATAFLOW

Automatisierte Ressourcenverwaltung
Cloud Dataflow automatisiert die Bereitstellung und Verwaltung von Verarbeitungsressourcen, sodass die Latenz minimiert und die Auslastung maximiert wird. Instanzen müssen nicht mehr manuell erstellt oder reserviert werden.
Dynamischer Arbeitsausgleich
Eine automatisierte und optimierte Arbeitsaufteilung gleicht Arbeitsverzögerungen dynamisch aus. Sie müssen nicht mehr nach "Hot-Schlüsseln" suchen, bei denen es durch hohe Aufrufraten zu Verzögerungen kommt, oder Ihre Eingabedaten vorverarbeiten.
Zuverlässige und einheitliche, genau einmalige Verarbeitung
Cloud Dataflow bietet durch integrierten Support eine fehlertolerante Ausführung, die sowohl konsistent als auch korrekt ist – unabhängig von Datengröße, Clustergröße, Verarbeitungsmuster oder Pipelinekomplexität.
Automatische horizontale Skalierung
Durch die automatische horizontale Skalierung von Worker-Ressourcen zwecks Optimierung des Durchsatzes wird das gesamte Preis-Leistungs-Verhältnis verbessert.
Einheitliches Programmiermodell
Das Apache Beam-SDK bietet MapReduce nachgebildete Prozesse mit gleichwertigem Funktionsumfang, eine leistungsfähige Datenfenstertechnik und detaillierte Kontrollen auf Fehlerfreiheit für Streaming- und Batchdaten.
Innovation als Produkt der Community
Entwickler können Forks erstellen und/oder einen Beitrag zu Apache Beam leisten, um das Cloud Dataflow-Programmiermodell zu erweitern.
Flexible Ressourcenpreisplanung für die Batchverarbeitung
Zur flexiblen Verarbeitung im Rahmen der zeitlichen Planung von Jobs, zum Beispiel über Nacht, ergibt sich mit der flexiblen Ressourcenplanung ein günstigerer Preis für die Batchverarbeitung. Diese flexiblen Jobs werden in einer Warteschlange mit der Garantie platziert, dass sie innerhalb von sechs Stunden abgerufen und ausgeführt werden.

Cloud Dataflow oder Cloud Dataproc: Was passt besser?

Sowohl Cloud Dataproc als auch Cloud Dataflow können für die Datenverarbeitung verwendet werden und es gibt einen Überschneidungsbereich bei ihren Batch- und Streamingfunktionen. Wie entscheiden Sie, welches Produkt sich besser für Ihre Umgebung eignet?
Dataproc und Dataflow im Vergleich

Cloud Dataproc

Cloud Dataproc eignet sich für Umgebungen, die von bestimmten Komponenten der Apache-Big-Data-Umgebung abhängen:

  • Tools/Pakete
  • Pipelines
  • Fähigkeiten vorhandener Ressourcen

Cloud Dataflow

Cloud Dataflow ist in der Regel die bevorzugte Option für Greenfield-Umgebungen:

  • Weniger operativer Aufwand
  • Einheitlicher Ansatz für die Entwicklung von Batch- oder Streamingpipelines
  • Verwendung von Apache Beam
  • Unterstützung der Pipelineportabilität über Cloud Dataflow, Apache Spark und Apache Flink als Laufzeiten

Empfohlene Arbeitslasten

ARBEITSLASTEN CLOUD DATAPROC CLOUD DATAFLOW
Streamverarbeitung (ETL)
Batchverarbeitung (ETL)
Iterative Verarbeitung und Notebooks
Maschinelles Lernen mit Spark ML
Vorverarbeitung für maschinelles Lernen (mit Cloud ML Engine)

Partnerschaften und Integrationen

Partner und externe Entwickler der Google Cloud Platform haben Integrationen mit Dataflow entwickelt, damit Sie schnell und einfach leistungsstarke Datenverarbeitungsaufgaben einer beliebigen Größenordnung ausführen können.

ClearStory

Cloudera

DataArtisans

Salesforce

 

SpringML

tamr

"Weil unsere Pipelines jetzt auf Cloud Dataflow ausgeführt werden, können wir uns auf das Programmieren konzentrieren und müssen uns keine Gedanken mehr über die Bereitstellung und Verwaltung von Instanzen machen, die unseren Code ausführen (was ein besonderes Merkmal der GCP ist)."

– Jibran Saithi Lead Architect, Qubit

Nutzerfreundliche Preise

Die Abrechnung von Cloud Dataflow-Jobs erfolgt pro Sekunde und anhand der tatsächlichen Nutzung der Batch- und Streaming-Worker von Cloud Dataflow. Jobs, die zusätzliche GCP-Ressourcen in Anspruch nehmen, wie Cloud Storage oder Cloud Pub/Sub, werden nach den Preisen für diese Dienste abgerechnet.

Iowa (us-central1) Los Angeles (us-west2) Oregon (us-west1) Northern Virginia (us-east4) South Carolina (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Belgien (europe-west1) Finnland (europe-north1) Frankfurt (europe-west3) London (europe-west2) Niederlande (europe-west4) Zürich (europe-west6) Mumbai (asia-south1) Singapur (asia-southeast1) Sydney (australia-southeast1) Hongkong (asia-east2) Taiwan (asia-east1) Tokio (asia-northeast1)
Cloud Dataflow Worker-Typ vCPU
$/Std.
Speicher
$/GB und Std.
Speicher – nichtflüchtiger Standardspeicher
$/GB und Std.
Speicher – nichtflüchtiger SSD-Speicher
$/GB und Std.
Verarbeitete Daten4,5
$ GB6
Batch1
FlexRS2
Streaming3
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise in Cloud Platform SKUs in Ihrer Währung.

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher

2 FlexRS-Worker-Standardeinstellungen: 2 vCPU, 7,50 GB Arbeitsspeicher, 25 GB nichtflüchtiger Speicher pro Worker bei mindestens zwei Workern

3 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 420 GB nichtflüchtiger Speicher

4 Cloud Dataflow Shuffle steht für Batchpipelines derzeit in den folgenden Regionen zur Verfügung:

  • us-central1 (Iowa)
  • europe-west1 (Belgien)
  • europe-west4 (Niederlande)
  • asia-northeast1 (Tokio)

Er wird demnächst auch in anderen Regionen verfügbar sein.

5 Cloud Dataflow Streaming Engine nutzt die Preiseinheit für verarbeitete Streamingdaten. Streaming Engine ist derzeit in den folgenden Regionen verfügbar:

  • us-central1 (Iowa)
  • europe-west1 (Belgien)
  • asia-northeast1 (Tokio)
  • europe-west4 (Niederlande)
Er wird demnächst auch in anderen Regionen verfügbar sein.

6 Weitere Informationen zu verarbeiteten Daten finden Sie unter Cloud Dataflow-Preise.

Feedback geben zu...

Cloud Dataflow