Cloud Dataflow

Vereinfachte Stream- und Batch-Datenverarbeitung bei gleicher Zuverlässigkeit und Aussagekraft

Kostenlos testen

Schnellere Entwicklung, einfachere Verwaltung

Cloud Dataflow ist ein vollständig verwalteter Dienst für die Umwandlung und Anreicherung von Daten im Streammodus (für Echtzeitdaten) und im Batchmodus (für Verlaufsdaten) bei gleicher Zuverlässigkeit und Aussagekraft. Umständliche Behelfs- oder Kompromisslösungen werden damit überflüssig. Mit dem serverlosen Ansatz zur Ressourcenbereitstellung und -verwaltung haben Sie außerdem Zugriff auf praktisch unbegrenzte Kapazitäten. Somit können Sie die größten Herausforderungen bei der Datenverarbeitung meistern und zahlen dabei nur für das, was Sie tatsächlich nutzen.

Mit Cloud Dataflow eröffnen sich branchenübergreifend Einsatzbereiche für die Datenumwandlung. Dazu zählen:

  • check Clickstream-, Point-of-Sale- und Segmentierungsanalyse im Einzelhandel
  • check Betrugserkennung bei Finanzdienstleistungen
  • check Personalisierte Nutzererfahrung bei Spielen
  • check IdD-Analysen in der verarbeitenden Industrie, im Gesundheitswesen und in der Logistik
faster-development-easier-management

Schnellere Entwicklung für die Batch- und Streamdatenverarbeitung

Cloud Dataflow unterstützt schnelle, vereinfachte Pipelineentwicklung über hilfreiche Java- und Python-APIs als Teil des Apache Beam SDK, das zahlreiche Windowing- und Sitzungsanalyse-Primitive sowie eine Auswahl an Quell- und Senk-Connectors bietet. Außerdem ermöglicht Ihnen das einzigartige, einheitliche Entwicklungsmodell von Beam, mehr Code bei Streaming- und Batchpipelines wiederzuverwenden.

accelerate-development-with-no-compromises

Vorgänge und Verwaltung vereinfachen

Mit dem serverlosen Ansatz der GCP entfallen betriebliche Gemeinkosten, denn Leistung, Skalierung, Verfügbarkeit, Sicherheit und Compliance werden automatisch überwacht. Dies macht es Nutzern möglich, sich auf das Programmieren statt auf die Verwaltung von Serverclustern zu konzentrieren. Die Integration mit Stackdriver, der einheitlichen Protokollierungs- und Überwachungslösung der GCP, bietet Ihnen die Möglichkeit, Ihre Pipelines in Echtzeit zu überwachen und entsprechende Fehler zu beheben. Umfassende Visualisierungen, Protokollierungen und Benachrichtigungen tragen dazu bei, mögliche Probleme zu identifizieren und auf diese zu reagieren.

simplify-operations-and-management

Auf einer Basis für maschinelles Lernen aufbauen

Nutzen Sie Cloud Dataflow als praktischen Integrationspunkt, um Betrugserkennung, Personalisierung in Echtzeit und ähnliche Anwendungsfälle um prognostische Analysen zu erweitern, indem Sie Ihren Pipelines zur Datenverarbeitung Cloud Machine Learning-Modelle und -APIs hinzufügen, die auf TensorFlow basieren.

build-on-a-foundation-for-machine-learning

Bevorzugte und vertraute Tools nutzen

Cloud Dataflow integriert sich nahtlos in die GCP-Dienste zur Aufnahme von Ereignisstreams (Cloud Pub/Sub), zum Data Warehousing (BigQuery), zum maschinellen Lernen (Cloud Machine Learning) und vielem mehr. Mithilfe des auf Beam basierenden SDK können Entwickler außerdem individuelle Erweiterungen erstellen und sogar alternative Ausführungsengines auswählen, wie etwa Apache Spark über Cloud Dataproc oder lokale Engines. Nutzern von Apache Kafka ermöglicht ein Cloud Dataflow-Connector die einfache Integration mit der GCP.

use-your-favorite-and-familiar-tools

Daten mit Cloud Dataflow umwandeln

diagram-dataflow

VORTEILE VON CLOUD DATAFLOW

Automatisierte Ressourcenverwaltung
Cloud Dataflow automatisiert die Bereitstellung und Verwaltung von Verarbeitungsressourcen, sodass die Latenz minimiert und die Auslastung maximiert wird. Instanzen müssen nicht mehr manuell erstellt oder reserviert werden.
Dynamischer Work-Ausgleich
Eine automatisierte und optimierte Arbeitsaufteilung gleicht Arbeitsverzögerungen dynamisch aus. Sie müssen nicht mehr nach "Hot-Schlüsseln" suchen, bei denen es durch hohe Aufrufraten zu Verzögerungen kommt, oder Ihre Eingabedaten vorverarbeiten.
Zuverlässige und einheitliche, genau einmalige Verarbeitung
Cloud Dataflow bietet durch integrierten Support eine fehlertolerante Ausführung, die sowohl konsistent als auch genau ist – unabhängig von Datengröße, Clustergröße, Verarbeitungsmuster und Pipelinekomplexität.
Automatische horizontale Skalierung
Durch die automatische horizontale Skalierung von Worker-Ressourcen zwecks Optimierung des Durchsatzes wird das gesamte Preis-Leistungs-Verhältnis verbessert.
Einheitliches Programmiermodell
Das Apache Beam-SDK bietet gleichermaßen umfassende Prozesse wie MapReduce, leistungsfähige Datenfenstertechnik und detaillierte Kontrollen auf Fehlerfreiheit für Streaming- und Batchdaten.
Von der Community vorangetriebene Innovation
Entwickler können Forks erstellen und/oder einen Beitrag zu Apache Beam leisten, um das Cloud Dataflow-Programmiermodell zu erweitern.

Cloud Dataflow vs. Cloud Dataproc: Wofür sollten Sie sich entscheiden?

Cloud Dataproc und Cloud Dataflow können beide für die Datenverarbeitung verwendet werden und es gibt eine Überlappung im Hinblick auf ihre Batch- und Streaming-Funktionen. Wie entscheiden Sie, welches Produkt sich besser für Ihre Umgebung eignet?
Dataproc vs. Dataflow

Cloud Dataproc

Cloud Dataproc eignet sich für Umgebungen, die von bestimmten Komponenten der Apache-Big-Data-Umgebung abhängen:

  • check Tools/Pakete
  • check Pipelines
  • check Fähigkeiten bestehender Ressourcen

Cloud Dataflow

Cloud Dataflow ist in der Regel die bevorzugte Option für Greenfield-Umgebungen:

  • check Weniger operativer Aufwand
  • check Einheitlicher Ansatz für die Entwicklung von Batch- oder Streaming-Pipelines
  • check Einsatz von Apache Beam
  • check Unterstützung der Pipelineportabilität über Cloud Dataflow, Apache Spark und Apache Flink als Laufzeiten

Empfohlene Arbeitslasten

ARBEITSLASTEN CLOUD DATAPROC CLOUD DATAFLOW
Streamverarbeitung (ETL) check
Batch-Verarbeitung (ETL) check check
Iterative Verarbeitung und Notebooks check
Maschinelles Lernen mit Spark ML check
Vorverarbeitung für maschinelles Lernen check (mit Cloud ML Engine)

Partnerschaften und Integrationen

Partner und externe Entwickler der Google Cloud Platform haben Integrationen mit Dataflow entwickelt, damit Sie schnell und einfach leistungsstarke Datenverarbeitungsaufgaben jeder Größenordnung ausführen können.

ClearStory

Cloudera

DataArtisans

Salesforce

 

SpringML

tamr

"Weil unsere Pipelines jetzt auf Cloud Dataflow ausgeführt werden, können wir uns auf das Programmieren konzentrieren und müssen uns keine Gedanken mehr über Bereitstellung und Verwaltung von Instanzen machen, die unseren Code ausführen (was ein besonderes Merkmal der GCP ist)."

– Jibran Saithi Lead Architect, Qubit

Nutzerfreundliche Preise

Die Abrechnung von Cloud Dataflow-Jobs erfolgt pro Sekunde und auf Grundlage der tatsächlichen Nutzung der Batch- und Streaming-Worker von Cloud Dataflow. Jobs, die zusätzliche GCP-Ressourcen in Anspruch nehmen, wie Cloud Storage oder Cloud Pub/Sub, werden gemäß den Preisen für diese Dienste abgerechnet.

Iowa (us-central1) Los Angeles (us-west2) Oregon (us-west1) Northern Virginia (us-east4) South Carolina (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Belgien (europe-west1) Finnland (europe-north1) Frankfurt (europe-west3) London (europe-west2) Niederlande (europe-west4) Mumbai (asia-south1) Singapur (asia-southeast1) Sydney (australia-southeast1) Taiwan (asia-east1) Tokio (asia-northeast1)
Cloud Dataflow Worker-Typ vCPU
$/Std.
Speicher
$/GB und Std.
Speicher – nichtflüchtiger Standardspeicher
$/GB und Std.
Speicher – nichtflüchtiger SSD-Speicher
$/GB und Std.
Verarbeitete Daten 3,4
$/GB 5
Batch 1
Streaming 2
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die in Cloud Platform SKUs in Ihrer Währung angegeben sind.

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Arbeitsspeicher, 250 GB nichtflüchtiger Speicher

2 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Arbeitsspeicher, 420 GB nichtflüchtiger Speicher

3 Cloud Dataflow Shuffle steht aktuell nur für Batch-Pipelines in den Regionen us-central1 (Iowa) und europe-west1 (Belgien) zur Verfügung. Der Dienst wird demnächst auch in anderen Regionen verfügbar sein.

4 Cloud Dataflow Streaming Engine nutzt die Preiseinheit für verarbeitete Streaming-Daten. Streaming Engine steht aktuell in der Betaversion und nur für Streaming-Pipelines in den Regionen us-central1 (Iowa) und europe-west1 (Belgien) zur Verfügung. Der Dienst wird demnächst auch in anderen Regionen verfügbar sein.

5 Weitere Informationen zu verarbeiteten Daten finden Sie unter Cloud Dataflow-Preise.

Feedback geben zu...

Cloud Dataflow