Cloud Dataflow

Vereinfachte Stream- und Batch-Datenverarbeitung bei gleicher Zuverlässigkeit und Aussagekraft

Kostenlos testen

Schnellere Entwicklung, einfachere Verwaltung

Cloud Dataflow ist ein vollständig verwalteter Dienst für die Umwandlung und Anreicherung von Daten im Stream- (Echtzeit) und Batchmodus (Verlaufsdaten) bei gleicher Zuverlässigkeit und Aussagekraft. Umständliche Behelfs- oder Kompromisslösungen werden damit überflüssig. Mit dem serverlosen Ansatz zur Ressourcenbereitstellung und -verwaltung haben Sie außerdem Zugriff auf praktisch unbegrenzte Kapazitäten. Somit können Sie die größten Herausforderungen bei der Datenverarbeitung meistern und zahlen dabei nur für das, was Sie tatsächlich nutzen.

Mit Cloud Dataflow eröffnen sich branchenübergreifend Einsatzbereiche für die Datenumwandlung. Dazu zählen:

  • check Clickstream-, Point-of-Sale- und Segmentierungsanalyse im Einzelhandel
  • check Betrugserkennung bei Finanzdienstleistungen
  • check Personalisierte Nutzererfahrung bei Spielen
  • check IdD-Analysen in der verarbeitenden Industrie, im Gesundheitswesen und in der Logistik
faster-development-easier-management

Schnellere Entwicklung für die Batch- und Streamdatenverarbeitung

Cloud Dataflow unterstützt eine schnelle, vereinfachte Pipelineentwicklung über hilfreiche Java- und Python-APIs als Teil des Apache Beam SDK, das zahlreiche Windowing- und Sitzungsanalyse-Primitive sowie eine Auswahl an Quell- und Senk-Connectors bietet. Außerdem ermöglicht Ihnen das einzigartige, einheitliche Entwicklungsmodell von Beam, mehr Code bei Streaming- und Batchpipelines wiederzuverwenden.

accelerate-development-with-no-compromises

Vorgänge und Verwaltung vereinfachen

Mit dem serverlosen Ansatz der GCP entfallen betriebliche Gemeinkosten, denn Leistung, Skalierung, Verfügbarkeit, Sicherheit und Compliance werden automatisch überwacht. Dies macht es Nutzern möglich, sich auf das Programmieren statt auf die Verwaltung von Serverclustern zu konzentrieren. Die Integration mit Stackdriver, der einheitlichen Protokollierungs- und Überwachungslösung der GCP, bietet Ihnen die Möglichkeit, Ihre Pipelines in Echtzeit zu überwachen und entsprechende Fehler zu beheben. Umfassende Visualisierungen, Protokollierungen und Benachrichtigungen tragen dazu bei, mögliche Probleme zu identifizieren und auf diese zu reagieren.

simplify-operations-and-management

Auf einer Basis für maschinelles Lernen aufbauen

Nutzen Sie Cloud Dataflow als praktischen Integrationspunkt, um Betrugserkennung, Personalisierung in Echtzeit und ähnliche Anwendungsfälle um prognostische Analysen zu erweitern, indem Sie Ihren Pipelines zur Datenverarbeitung Cloud Machine Learning-Modelle und -APIs hinzufügen, die auf TensorFlow basieren.

build-on-a-foundation-for-machine-learning

Bevorzugte und vertraute Tools nutzen

Cloud Dataflow integriert sich nahtlos in die GCP-Dienste zum Streamen der Ereignisdatenaufnahme (Cloud Pub/Sub), für das Data Warehousing (BigQuery), zum maschinellen Lernen (Cloud Machine Learning) und vielem mehr. Mithilfe des auf Beam basierenden SDK können Entwickler außerdem individuelle Erweiterungen erstellen und sogar alternative Ausführungsengines auswählen, wie etwa Apache Spark über Cloud Dataproc oder lokale Engines. Nutzern von Apache Kafka ermöglicht ein Cloud Dataflow-Connector die einfache Integration mit der GCP.

use-your-favorite-and-familiar-tools

Daten mit Cloud Dataflow umwandeln

diagram-dataflow

FUNKTIONEN VON CLOUD DATAFLOW

Automatisierte Ressourcenverwaltung
Cloud Dataflow automatisiert die Bereitstellung und Verwaltung von Verarbeitungsressourcen, sodass die Latenz minimiert und die Auslastung maximiert wird. Instanzen müssen nicht mehr manuell erstellt oder reserviert werden.
Dynamischer Work-Ausgleich
Eine automatisierte und optimierte Arbeitsaufteilung gleicht Arbeitsverzögerungen dynamisch aus. Sie müssen nicht mehr nach "Hot-Schlüsseln" suchen, bei denen es durch hohe Aufrufraten zu Verzögerungen kommt, oder Ihre Eingabedaten vorverarbeiten.
Zuverlässige und einheitliche, genau einmalige Verarbeitung
Cloud Dataflow bietet durch einen integrierten Support eine fehlertolerante Ausführung, die sowohl konsistent als auch genau ist – unabhängig von Datengröße, Clustergröße, Verarbeitungsmuster und Pipelinekomplexität.
Automatische horizontale Skalierung
Durch die automatische horizontale Skalierung von Arbeitsressourcen zur optimalen Erfüllung von Durchsatzanforderungen wird das gesamte Preis-Leistungs-Verhältnis verbessert.
Einheitliches Programmiermodell
Das Apache Beam-SDK bietet gleichermaßen umfassende Prozesse wie MapReduce sowie leistungsfähige Datenfenstertechnik und detaillierte Kontrollen auf Fehlerfreiheit für Streaming- und Batchdaten.
Von der Community vorangetriebene Innovation
Entwickler können Forks erstellen und/oder einen Beitrag zu Apache Beach leisten, um das Cloud Dataflow-Programmiermodell zu erweitern.

Partnerschaften und Integrationen

Partner und externe Entwickler der Google Cloud Platform haben Integrationen mit Dataflow entwickelt, damit Sie schnell und einfach leistungsstarke Datenverarbeitungsaufgaben jeder Größe ausführen können.

ClearStory

Cloudera

DataArtisans

Salesforce

 

SpringML

tamr

"Dank der Ausführung unserer Pipelines auf Cloud Dataflow können wir uns auf das Programmieren konzentrieren, ohne uns über die Bereitstellung und Verwaltung von Instanzen, die unseren Code ausführen, Gedanken machen zu müssen (ein besonderes Merkmal der GCP)."

– Jibran Saithi Lead Architect, Qubit

Nutzerfreundliche Preise

Die Abrechnung von Cloud Dataflow-Jobs erfolgt pro Minute auf Grundlage der tatsächlichen Nutzung der Batch- und Streaming-Worker von Cloud Dataflow. Jobs, die zusätzliche GCP-Ressourcen in Anspruch nehmen, wie Cloud Storage oder Cloud Pub/Sub, werden gemäß den Preisen für diesen Dienst abgerechnet.

Iowa Oregon Northern Virginia South Carolina Montréal São Paulo Belgien London Niederlande Frankfurt Mumbai Singapur Sydney Taiwan Tokio
Cloud Dataflow-Worker-Typ vCPU
$/Std.
Speicher
$ GB/Std.
Speicher – nichtflüchtiger Standardspeicher
$ GB/Std.
Speicher – nichtflüchtiger SSD-Speicher
$ GB/Std.
Cloud Dataflow Shuffle 3
$ GB/Std.
Batch 1
Streaming 2
Wenn Sie in einer anderen Währung als USD bezahlen, gelten die Preise, die in Cloud Platform SKUs in Ihrer Währung angegeben sind.

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Speicher, 250 GB nichtflüchtiger Speicher

2 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Speicher, 420 GB nichtflüchtiger Speicher

3 Der dienstbasierte Cloud Dataflow Shuffle steht aktuell in der Betaversion nur für Batchpipelines der Regionen us-central1 (Iowa) und europe-west1 (Belgien) zur Verfügung. Er wird demnächst aber auch in anderen Regionen verfügbar sein.