Cloud Dataflow

Vereinfachte Stream- und Batch-Datenverarbeitung bei gleicher Zuverlässigkeit und Aussagekraft

Kostenlos testen

Schnellere Entwicklung, einfachere Verwaltung

Cloud Dataflow ist ein vollständig verwalteter Dienst für die Umwandlung und Anreicherung von Daten im Stream- (Echtzeit) und Batchmodus (Verlaufsdaten) bei gleicher Zuverlässigkeit und Aussagekraft. Umständliche Behelfs- oder Kompromisslösungen werden damit überflüssig. Mit dem serverlosen Ansatz zur Ressourcenbereitstellung und -verwaltung haben Sie außerdem Zugriff auf praktisch unbegrenzte Kapazitäten. Somit können Sie die größten Herausforderungen bei der Datenverarbeitung meistern und zahlen dabei nur für das, was Sie tatsächlich nutzen.

Mit Cloud Dataflow eröffnen sich branchenübergreifend Einsatzbereiche für die Datenumwandlung. Dazu zählen:

  • check Clickstream-, Point-of-Sale und Segmentierungsanalyse im Einzelhandel
  • check Betrugserkennung bei Finanzdienstleistungen
  • check Personalisierte Nutzererfahrung bei Spielen
  • check IdD-Analysen in der verarbeitenden Industrie, im Gesundheitswesen und in der Logistik
faster-development-easier-management

Schnellere Entwicklung für die Batch- und Streamdatenverarbeitung

Cloud Dataflow unterstützt eine schnelle, vereinfachte Pipelineentwicklung über wirkungsvolle Java- und Python-APIs als Teil des Apache Beam SDK, das eine umfassende Auswahl an Windowing- und Sitzungsanalyse-Primitiven sowie ein Ökosystem an Quell- und Senk-Connectors bietet. Außerdem ermöglicht Ihnen das einzigartige, einheitliche Entwicklungsmodell von Beam, mehr Code bei Streaming- und Batchpipelines wiederzuverwenden.

accelerate-development-with-no-compromises

Vorgänge und Verwaltung vereinfachen

Mit dem serverlosen Ansatz der GCP entfallen betriebliche Gemeinkosten, denn Leistung, Skalierung, Verfügbarkeit, Sicherheit und Compliance werden automatisch überwacht. Dies macht es Nutzern möglich, sich auf das Programmieren statt auf die Verwaltung von Serverclustern zu konzentrieren. Die Integration mit Stackdriver, der einheitlichen Protokollierungs- und Überwachungslösung der GCP, bietet Ihnen die Möglichkeit, Ihre Pipelines in Echtzeit zu überwachen und entsprechende Fehler zu beheben. Umfassende Visualisierungen, Protokollierungen und Benachrichtigungen tragen dazu bei, mögliche Probleme zu identifizieren und auf diese zu reagieren.

simplify-operations-and-management

Auf einer Basis für maschinelles Lernen aufbauen

Nutzen Sie Cloud Dataflow als praktischen Integrationspunkt, um die Betrugserkennung, die Personalisierung in Echtzeit und ähnliche Anwendungsfälle um prognostische Analysen zu erweitern, indem Sie Ihren Pipelines zur Datenverarbeitung Cloud Machine Learning-Modelle und -APIs hinzufügen, die auf TensorFlow basieren.

build-on-a-foundation-for-machine-learning

Bevorzugte und vertraute Tools nutzen

Cloud Dataflow integriert sich nahtlos in die GCP-Dienste zum Streamen der Ereignisdatenaufnahme (Cloud Pub/Sub), zum Data Warehousing (BigQuery), zum maschinellen Lernen (Cloud Machine Learning) und vielem mehr. Mithilfe des auf Beam basierenden SDK können Entwickler außerdem individuelle Erweiterungen erstellen und sogar alternative Ausführungsengines auswählen, wie etwa Apache Spark über Cloud Dataproc oder lokale Engines. Nutzern von Apache Kafka ermöglicht ein Cloud Dataflow-Connector die einfache Integration mit der GCP.

use-your-favorite-and-familiar-tools

Daten mit Cloud Dataflow umwandeln

diagram-dataflow

FUNKTIONEN VON CLOUD DATAFLOW

Automatisierte Ressourcenverwaltung
Cloud Dataflow automatisiert die Bereitstellung und Verwaltung von Verarbeitungsressourcen, sodass die Latenz minimiert und die Auslastung maximiert wird. Instanzen müssen nicht mehr manuell erstellt oder reserviert werden.
Dynamischer Work-Ausgleich
Eine automatisierte und optimierte Arbeitsaufteilung gleicht Arbeitsverzögerungen dynamisch aus. Sie müssen nicht mehr nach Tastenkombinationen suchen oder Ihre Eingabedaten vorverarbeiten.
Zuverlässige und einheitliche, genau einmalige Verarbeitung
Cloud Dataflow bietet durch einen integrierten Support eine fehlertolerante Ausführung, die sowohl konsistent als auch genau ist – unabhängig von Datengröße, Clustergröße, Verarbeitungsmuster und Pipelinekomplexität.
Automatische horizontale Skalierung
Durch die automatische horizontale Skalierung von Arbeitsressourcen zur optimalen Erfüllung von Durchsatzanforderungen wird das gesamte Preis-Leistungs-Verhältnis verbessert.
Einheitliches Programmiermodell
Das Apache Beam-SDK bietet gleichermaßen umfassende Prozesse wie MapReduce sowie leistungsfähige Datenfenstertechnik und detaillierte Kontrollen auf Fehlerfreiheit für Streaming- und Batchdaten.
Von der Community vorangetriebene Innovation
Entwickler können Forks erstellen und/oder einen Beitrag zu Apache Beach leisten, um das Cloud Dataflow-Programmiermodell zu erweitern.

Partnerschaften und Integrationen

Partner und externe Entwickler der Google Cloud Platform haben Integrationen mit Dataflow entwickelt, damit Sie schnell und einfach leistungsstarke Datenverarbeitungsaufgaben jeder Größe ausführen können.

ClearStory

Cloudera

DataArtisans

Salesforce

 

SpringML

tamr

"Dank der Ausführung unserer Pipelines auf Cloud Dataflow können wir uns auf das Programmieren konzentrieren, ohne uns über die Bereitstellung und Verwaltung von Instanzen, die unseren Code ausführen, Gedanken machen zu müssen (ein besonderes Merkmal der GCP)."

– Jibran Saithi Lead Architect, Qubit

Nutzerfreundliche Preise

Die Abrechnung von Cloud Dataflow-Jobs erfolgt pro Minute auf Grundlage der tatsächlichen Nutzung der Batch- und Streaming-Worker von Cloud Dataflow. Jobs, die zusätzliche GCP-Ressourcen in Anspruch nehmen, wie Cloud Storage oder Cloud Pub/Sub, werden gemäß den Preisen für diesen Dienst abgerechnet.

Iowa Oregon Northern Virginia South Carolina São Paulo Belgien London Frankfurt Mumbai Singapur Sydney Taiwan Tokio
Dataflow-Workertypen vCPU
$/Std.
Speicher
$ GB/Std.
Lokaler, nichtflüchtiger Speicher
$ GB/Std.
Lokaler Speicher – SSD-basiert
$ GB/Std.
Zufälliger Dataflow 3
$ GB/Std.
Batch 1
Streaming 2
Wenn Sie in einer anderen Währung als USD bezahlen, gelten die Preise, die in Cloud Platform SKUs in Ihrer Währung angegeben sind.

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Speicher, 250 GB nichtflüchtiger Speicher.

2 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Speicher, 420 GB nichtflüchtiger Speicher.

3 Dienstbasierte, zufällige Dataflows sind aktuell nur in der Betaversion für Batch-Pipelines der Region us-central1 (Iowa) verfügbar. Sie werden demnächst auch in anderen Regionen verfügbar sein.