Cloud Dataflow

Der vollständig verwaltete Datenverarbeitungsdienst, der sowohl Stream- als auch Batchausführung von Apache Beam-Pipelines unterstützt.

Kostenlos testen

Einheitlich und verwaltet

Dataflow ist ein einheitliches Programmiermodell und ein verwalteter Dienst für die Entwicklung und Ausführung verschiedener Datenverarbeitungsmuster wie ETL, Batchberechnung und kontinuierliche Berechnung. Mit Cloud Dataflow müssen Sie sich nicht mehr um operative Aufgaben wie Ressourcenverwaltung oder Leistungsoptimierung kümmern.

Vollständig verwaltet

Dieser verwaltete Dienst ermöglicht die transparente Handhabung der Lebensdauer von Ressourcen. Sie können Ressourcen damit außerdem dynamisch bereitstellen, um die Latenz zu minimieren und gleichzeitig eine hohe Auslastungseffizienz zu gewährleisten. Dataflow-Ressourcen werden bei Bedarf zugewiesen, sodass Sie über nahezu unbegrenzte Ressourcenkapazität für größere Datenverarbeitungsaufgaben verfügen.

Einheitliches Programmiermodell

Apache Beam SDKs bieten Programmierprimitive wie leistungsstarke Fenstertechnik und Fehlerfreiheitskontrollen, die auf batch- und streambasierte Datenquellen angewendet werden können. Das Apache Beam-Modell beseitigt Programmiermodell-Umstiegskosten zwischen Batchverarbeitung und kontinuierlicher Streamverarbeitung, denn Entwickler können damit Rechenanforderungen unabhängig von der Datenquelle stellen.

Integriert und Open Source

Dataflow wurde mithilfe von Diensten wie Google Computer Engine entwickelt und bietet damit ein operativ vertrautes Umfeld, das nahtlos mit Cloud Storage, Cloud Pub/Sub, Cloud Datastore, Cloud Bigtable und BigQuery integriert ist. Mithilfe von Apache Beam SDKs, die in Java und Python verfügbar sind, können Entwickler individuelle Erweiterungen implementieren und alternative Maschinen für die Ausführung wählen.

Partnerschaften und Integrationen

Partner und externe Entwickler der Google Cloud Platform haben Integrationen mit Dataflow entwickelt, damit Sie schnell und einfach leistungsstarke Datenverarbeitungsaufgaben jeder Größe ausführen können. Integrationen werden mit offenen APIs ausgeführt, die von Dataflow bereitgestellt werden.

ClearStory

Cloudera

DataArtisans

Salesforce

 

SpringML

tamr

Dataflow-Funktionen

Zuverlässige Ausführung für Datenverarbeitung in großem Maßstab

Ressourcenverwaltung
Cloud Dataflow automatisiert die Verwaltung von erforderlichen Verarbeitungsressourcen. Instanzen müssen nicht mehr manuell erstellt werden.
Nach Bedarf
Alle Ressourcen werden nach Bedarf bereitgestellt, sodass Sie je nach geschäftlichen Anforderungen skalieren können. Sie müssen keine reservierten Compute-Instanzen kaufen.
Intelligente Arbeitsplanung
Automatisierte und optimierte Arbeitsaufteilung, die Arbeitsverzögerungen dynamisch ausgleicht. Sie müssen nicht mehr nach Tastenkombinationen suchen oder Ihre Eingabedaten vorverarbeiten.
Automatische Skalierung
Durch die automatische horizontale Skalierung von Worker-Ressourcen für die optimale Erfüllung von Durchsatzanforderungen wird das gesamte Preis-Leistungs-Verhältnis verbessert.
Einheitliches Programmiermodel
Mit der Dataflow API können Sie Operationen wie MapReduce, leistungsfähige Datenfenstertechnik und detaillierte Fehlerfreiheitskontrollen unabhängig von der Datenquelle nutzen.
Open Source
Entwickler können Forks erstellen und/oder einen Pull-Request einreichen, um das Dataflow-Programmiermodell zu erweitern. Dataflow-Pipelines werden auch über alternative Laufzeitsysteme wie Spark und Flink ausgeführt.
Überwachung
Cloud Dataflow ist in die Google API Console integriert und bietet Statistiken wie Pipeline-Durchsatz und -verzögerung sowie konsolidierte Worker-Protokollinspektionen nahezu in Echtzeit.
Integrierte Lösung
Integriert mit Cloud Storage, Cloud Pub/Sub, Cloud Datastore, Cloud Bigtable und BigQuery für nahtlose Datenverarbeitung. Dataflow kann außerdem erweitert und mit anderen Quellen und Senken wie Apache Kafka und HDFS integriert werden.
Zuverlässige und konsistente Verarbeitung
Cloud Dataflow bietet mit integriertem Support fehlertolerante Ausführung, die sowohl konsistent als auch genau ist – unabhängig von Datengröße, Clustergröße, Verarbeitungsmuster und Pipelinekomplexität.

"Google Cloud Dataflow-Streaming erfüllt alle Anforderungen der Zeitreihenanalyseplattform Wix.com, insbesondere die Skalierbarkeit, die Datenverarbeitung mit geringer Latenz und fehlertolerantes Computing. Dank der großen Anzahl an Datenerfassungstransformationen und Gruppierungsoperationen können komplexe Stream-Datenverarbeitungsalgorithmen implementiert werden."

– Gregory Bondar Ph.D., Sr. Director of Data Services Platform, Wix.com

Dataflow-Preisübersicht

Cloud Dataflow-Jobs werden pro Minute in Rechnung gestellt, basierend auf der Nutzung mindestens eines Cloud Dataflow-Batch-Workers oder Streaming-Workers. Ein Dataflow-Job kann zusätzliche GCP-Ressourcen verbrauchen – Cloud Storage, Cloud Pubsub oder andere – die nach ihren jeweiligen Preisen in Rechnung gestellt werden. Ausführliche Preisinformationen finden Sie in der Preisübersicht.

Iowa Oregon South Carolina Belgien Taiwan Tokio
Dataflow-Workertypen vCPU
$/Std.
Speicher
$ GB/Std.
Lokaler Speicher – Persistente Festplatte
$ GB/Std.
Lokaler Speicher – SSD-basiert
$ GB/Std.
Batch 1
Streaming 2

1 Batch-Worker-Standardeinstellungen: 1 vCPU, 3,75 GB Speicher, 250 GB persistente Festplatte.

2 Streaming-Worker-Standardeinstellungen: 4 vCPUs, 15 GB Speicher, 420 GB persistente Festplatte.

Apache®, Apache Beam und das Logo mit dem orangefarbenen Buchstaben B sind eingetragene Marken bzw. Marken der Apache Software Foundation, eingetragen in den USA und/oder anderen Ländern.

Ressourcen unterwegs überwachen

Projekte jetzt einfach in der Google Cloud Console App verwalten.