Dataflow

Einheitliche serverlose, schnelle und kostengünstige Verarbeitung von Streaming- und Batchdaten.

Dataflow kostenlos testen
  • action/check_circle_24px Erstellt mit Sketch

    Vollständig verwalteter Datenverarbeitungsdienst

  • action/check_circle_24px Erstellt mit Sketch

    Automatisierte Bereitstellung und Verwaltung von Verarbeitungsressourcen

  • action/check_circle_24px Erstellt mit Sketch

    Horizontales Autoscaling von Worker-Ressourcen zur Optimierung der Ressourcennutzung

  • action/check_circle_24px Erstellt mit Sketch

    Von der OSS-Community vorangetriebene Innovationen mit dem Apache Beam SDK

  • action/check_circle_24px Erstellt mit Sketch

    Zuverlässige und einheitliche, genau einmalige Verarbeitung

Analyse von Streamingdaten mit hoher Geschwindigkeit

Dataflow ermöglicht die schnelle, vereinfachte Entwicklung von Streamingdaten-Pipelines mit besonders niedriger Latenz.

Betrieb und Verwaltung vereinfachen

Dank des serverlosen Ansatzes von Dataflow entfällt der operative Aufwand von Data Engineering-Arbeitslasten, sodass sich Teams auf das Programmieren konzentrieren können und sich nicht um die Verwaltung von Serverclustern kümmern müssen.

Gesamtbetriebskosten reduzieren

Durch das Autoscaling von Ressourcen und eine kostenoptimierte Batchverarbeitung stellt Dataflow praktisch unbegrenzte Kapazitäten für Ihre nur temporär auftretenden Arbeitslasten und Lastspitzen bereit, ohne dass übermäßige Kosten anfallen.

Wichtige Features

Automatisierte Ressourcenverwaltung und dynamischer Arbeitsausgleich

Dataflow automatisiert die Bereitstellung und Verwaltung von Verarbeitungsressourcen, sodass die Latenz minimiert und die Ressourcennutzung optimiert wird. Instanzen müssen dadurch nicht mehr manuell erstellt oder reserviert werden. Die Arbeitsaufteilung wird ebenfalls automatisiert und optimiert, sodass Arbeitsverzögerungen dynamisch ausgeglichen werden. Sie müssen nicht mehr nach "Hot Keys" suchen, bei denen es durch hohe Aufrufraten zu Verzögerungen kommt, oder Ihre Eingabedaten vorverarbeiten.

Horizontales Autoscaling

Durch horizontales Autoscaling von Worker-Ressourcen zur Durchsatzoptimierung wird das gesamte Preis-Leistungs-Verhältnis verbessert.

Flexible Ressourcenplanungspreise für die Batchverarbeitung

Zur flexiblen Verarbeitung im Rahmen der zeitlichen Planung von Jobs, beispielsweise über Nacht, ergibt sich mit der flexiblen Ressourcenplanung (FlexRS) ein günstigerer Preis für die Batchverarbeitung. Diese flexiblen Jobs werden in einer Warteschlange mit der Garantie platziert, dass sie innerhalb von sechs Stunden abgerufen und ausgeführt werden.

Alle Features ansehen

Kunden

Dow Jones
Dow Jones veranschaulicht mit Dataflow Datasets zu wichtigen historischen Ereignissen.
Weiterlesen

Highlights

  • Auswertung von Nachrichtendaten aus mehr als 30 Jahren zur Beurteilung der Geschäftsauswirkungen

  • Aufdeckung bisher verborgener Datenbeziehungen und Informationen

  • Einfache Bereitstellung eines Knowledge Graph-Prototyps in 10 Wochen

Partner

Dokumentation

Kurzanleitung
Dataflow-Kurzanleitung mit Python

In dieser Kurzanleitung erfahren Sie, wie Sie ein Google Cloud-Projekt und eine Python-Entwicklungsumgebung einrichten, das Apache Beam SDK abrufen sowie das WordCount-Beispiel im Dataflow-Dienst ausführen und ändern.

Anleitung
Dataflow SQL verwenden

In dieser Anleitung erfahren Sie, wie Sie auf der Dataflow SQL-Benutzeroberfläche eine SQL-Abfrage erstellen und einen Dataflow-Job zur Ausführung der Abfrage bereitstellen.

Anleitung
Apache Beam SDK installieren

In dieser Anleitung erfahren Sie, wie Sie das Apache Beam SDK installieren, damit Sie Ihre Pipelines im Dataflow-Dienst ausführen können.

Anleitung
Maschinelles Lernen mit Apache Beam und TensorFlow

In dieser Anleitung erfahren Sie, wie Sie mit Apache Beam, Dataflow und TensorFlow ein ML-Modell für molekulare Energie vorverarbeiten, trainieren und damit Vorhersagen erstellen.

Anleitung
Qwiklab: Google Cloud Big Data und ML-Grundlagen

In diesem einwöchigen On-demand-Kurs erhalten Sie eine Einführung in die Datenanalyse- und ML-Funktionen von Google Cloud. Außerdem wird erläutert, wie Sie mit Dataflow Pipelines erstellen.

Google Cloud Basics
Dataflow-Ressourcen

Weitere Informationen zu Preisen, Ressourcenkontingenten, häufig gestellten Fragen und mehr.

Anleitung
Was Sie mit Google Cloud erstellen können

Hier finden Sie technische Leitfäden von Google Cloud zu Dataflow.

Anwendungsfälle

Anwendungsfall
Streamanalysen

Mit Streamanalysen von Google Cloud sind Daten sofort nach ihrer Generierung besser organisiert, nutzbar und zugänglich. Unsere Streaming-Lösung basiert auf Dataflow, Pub/Sub und BigQuery. Sie bietet die erforderlichen Ressourcen, um schwankende Echtzeitdatenmengen für geschäftliche Datenauswertungen in Echtzeit aufzunehmen, zu verarbeiten und zu analysieren. Diese abstrahierte Bereitstellung reduziert die Komplexität und macht Streamanalysen sowohl für Datenanalysten als auch für Data Engineers zugänglich.

Diagramm: Dataflow-Streamanalyse
Anwendungsfall
Echtzeit-KI

Dataflow ergänzt die AI Platform von Google Cloud und TensorFlow Extended (TFX) um Streamingereignisse und ermöglicht damit neben Analysen zu Prognosezwecken auch die Betrugserkennung und Echtzeit-Personalisierung sowie weitere Anwendungsfälle im Bereich erweiterte Analysen. TFX verwendet Dataflow und Apache Beam als Engine für die verteilte Datenverarbeitung, um verschiedene Aspekte des ML-Lebenszyklus zu realisieren. Zur Unterstützung kommt dabei CI/CD für ML über Kubeflow-Pipelines zum Einsatz.

Anwendungsfall
Verarbeitung von Sensor- und Logdaten

Gewinnen Sie mit unserer intelligenten IoT-Plattform wertvolle Geschäftsinformationen aus Ihrem globalen Gerätenetzwerk.

Alle Features

Streaming Engine Streaming Engine trennt das Computing vom Zustandsspeicher und verschiebt Teile der Pipelineausführung aus den Worker-VMs in das Back-End des Dataflow-Dienstes, sodass das Autoscaling und die Datenlatenz erheblich verbessert werden.
Autoscaling Autoscaling ermöglicht dem Dataflow-Dienst, automatisch die richtige Anzahl von Worker-Instanzen für die Verarbeitung eines Jobs auszuwählen. Der Dataflow-Dienst kann während der Laufzeit auch je nach Job dynamisch mehr oder weniger Worker neu zuweisen.
Dataflow Shuffle Der dienstbasierte Dataflow Shuffle verschiebt den zum Gruppieren und Zusammenführen von Daten verwendeten Shuffle-Vorgang aus den Worker-VMs in das Back-End des Dataflow-Dienstes für Batchpipelines. Batchpipelines werden nahtlos auf Hunderte von Terabyte skaliert, ohne dass etwas abgestimmt werden muss.
Dataflow SQL Mit Dataflow SQL können Sie Ihre SQL-Kompetenzen nutzen, um Dataflow-Streamingpipelines direkt in der BigQuery-Web-UI zu erstellen. Sie können Streamingdaten aus Pub/Sub mit Dateien in Cloud Storage oder Tabellen in BigQuery zusammenführen, Ergebnisse in BigQuery schreiben und mit Google Tabellen oder anderen BI-Tools Echtzeit-Dashboards erstellen.
Flexible Resource Scheduling (FlexRS) Dataflow FlexRS reduziert die Kosten für die Batchverarbeitung. Dazu werden erweiterte Planungsverfahren, der Dataflow Shuffle-Dienst sowie eine Kombination aus VM-Instanzen auf Abruf und normalen VMs verwendet. 
Dataflow-Vorlagen Dataflow-Vorlagen ermöglichen Ihnen das einfache Teilen Ihrer Pipelines mit Teammitgliedern und Ihrer gesamten Organisation. Sie können auch zahlreiche von Google zur Verfügung gestellte Vorlagen nutzen, um einfache, aber nützliche Datenverarbeitungsaufgaben zu implementieren. Mit Flex-Vorlagen können Sie eine Vorlage aus einer beliebigen Dataflow-Pipeline erstellen.
Notebooks-Integration Erstellen Sie iterativ ganz neue Pipelines mit AI Platform Notebooks und stellen Sie diese mit dem Dataflow-Runner bereit. Schreiben Sie Apache Beam-Pipelines Schritt für Schritt. Untersuchen Sie hierzu Pipeline-Grafiken in einem REPL-Workflow (Read-Eval-Print-Loop). Notebooks ist über die Google AI Platform erhältlich und ermöglicht Ihnen das Schreiben von Pipelines in einer intuitiven Umgebung mit neuesten Data Science- und ML-Frameworks.
Inline-Monitoring Mit Dataflow Inline-Monitoring können Sie direkt auf Jobmesswerte zugreifen und so einfacher Fehlerbehebungen bei Batch- und Streaming-Pipelines vornehmen. Sie können sowohl auf Schritt- als auch auf Worker-Ebene auf Monitoring-Diagramme zugreifen und Alarme für Bedingungen wie veraltete Daten und hohe Systemlatenz einrichten.
Vom Kunden verwaltete Verschlüsselungsschlüssel Sie können eine Batch- oder Streamingpipeline erstellen, die durch einen vom Kunden verwalteten Verschlüsselungsschlüssel (Customer-Managed Encryption Key, CMEK) geschützt ist, oder auf CMEK-geschützte Daten in Quellen und Senken zugreifen.
VPC Service Controls in Dataflow Durch die Einbindung von VPC Service Controls in Dataflow profitieren Sie von zusätzlicher Sicherheit für Ihre Datenverarbeitungsumgebung, da Sie das Risiko einer Datenexfiltration besser verringern können.
Private IPs Durch Deaktivierung öffentlicher IP-Adressen können Sie die Sicherheit der Infrastruktur Ihrer Datenverarbeitung erhöhen. Wenn Sie keine öffentlichen IP-Adressen für Ihre Dataflow-Worker verwenden, senken Sie damit auch die Anzahl der öffentlichen IP-Adressen, die Sie im Rahmen Ihres Google Cloud-Projektkontingents nutzen.

Preise

Die Abrechnung von Dataflow-Jobs erfolgt pro Sekunde und anhand der tatsächlich genutzten Dataflow-Batch- oder -Streaming-Worker. Zusätzliche Ressourcen wie Cloud Storage oder Pub/Sub werden nach den Tarifen für diese Dienste abgerechnet.

Partner

Google Cloud-Partner haben Lösungen für Dataflow entwickelt, mit denen Sie schnell und einfach leistungsstarke Datenverarbeitungsaufgaben jeder Größenordnung ausführen können.