Skalierbare, leistungsstarke VMs
Schnelle, einheitliche Verarbeitung von Stream- und Batchdaten

Dataflow ist ein vollständig verwalteter Streaminganalysedienst, der mithilfe von Autoscaling und Batchverarbeitung die Latenz, Verarbeitungszeit und Kosten minimiert. Mit dem serverlosen Ansatz zur Ressourcenbereitstellung und -verwaltung haben Sie außerdem Zugriff auf praktisch unbegrenzte Kapazitäten. Somit können Sie die größten Herausforderungen bei der Datenverarbeitung meistern und zahlen dabei nur für das, was Sie tatsächlich nutzen.

  • Automatisierte Bereitstellung und Verwaltung von Verarbeitungsressourcen
  • Horizontales Autoscaling von Worker-Ressourcen zur Optimierung der Ressourcennutzung
  • Vereinheitlichtes Streaming- und Batchprogrammierungsmodell
  • Von der OSS-Community vorangetriebene Innovationen mit dem Apache Beam SDK
  • Zuverlässige und einheitliche, genau einmalige Verarbeitung

Schnelle Analyse von Streamingdaten

Dataflow ermöglicht die schnelle, vereinfachte Entwicklung von Streamingdatenpipelines mit besonders niedriger Latenz.

Vorgänge und Verwaltung vereinfachen

Dank des serverlosen Ansatzes von Dataflow entfällt der operative Aufwand von Data Engineering-Arbeitslasten, sodass sich Teams auf das Programmieren konzentrieren können und sich nicht um die Verwaltung von Serverclustern kümmern müssen.

Gesamtbetriebskosten reduzieren

Durch das Autoscaling von Ressourcen und eine kostenoptimierte Batchverarbeitung stellt Dataflow praktisch unbegrenzte Kapazitäten für Ihre nur temporär auftretenden Arbeitslasten und Lastspitzen bereit, ohne dass übermäßige Kosten anfallen.

Wichtige Features

Automatisierte Ressourcenverwaltung und dynamischer Arbeitsausgleich

Dataflow automatisiert die Bereitstellung und Verwaltung von Verarbeitungsressourcen, sodass die Latenz minimiert und die Ressourcennutzung optimiert wird. Instanzen müssen dadurch nicht mehr manuell erstellt oder reserviert werden. Die Arbeitsaufteilung wird ebenfalls automatisiert und optimiert, sodass Arbeitsverzögerungen dynamisch ausgeglichen werden. Sie müssen nicht mehr nach "Hot-Schlüsseln" suchen, bei denen es durch hohe Aufrufraten zu Verzögerungen kommt, oder Ihre Eingabedaten vorverarbeiten.

Horizontales Autoscaling

Durch das horizontale Autoscaling von Worker-Ressourcen zwecks Optimierung des Durchsatzes wird das Preis-Leistungs-Verhältnis insgesamt verbessert.

Flexible Ressourcenplanungspreise für die Batchverarbeitung

Zur flexiblen Verarbeitung im Rahmen der zeitlichen Planung von Jobs, zum Beispiel über Nacht, ergibt sich mit der flexiblen Ressourcenplanung (FlexRS) ein günstigerer Preis für die Batchverarbeitung. Diese flexiblen Jobs werden in einer Warteschlange mit der Garantie platziert, dass sie innerhalb von sechs Stunden abgerufen und ausgeführt werden.

Alle Features ansehen

Kundenberichte

Highlights

  • Auswertung unstrukturierter Nachrichtendaten aus mehr als 30 Jahren zur Beurteilung der qualitativen Geschäftsauswirkungen von Schlüsselereignissen

  • Definition komplexer Netzwerkaufgaben zum Aufdecken verborgener Beziehungen und Informationen

  • Mühelose Bereitstellung eines Knowledge Graph-Prototyps in 10 Wochen

Partner

Weitere Kunden

Neuerungen

Dokumentation

Anleitung
Dataflow-Kurzanleitung mit Python

In dieser Kurzanleitung erfahren Sie, wie Sie ein Google Cloud-Projekt und eine Python-Entwicklungsumgebung einrichten, das Apache Beam SDK abrufen und das WordCount-Beispiel im Dataflow-Dienst ausführen und ändern.

Anleitung
Dataflow SQL verwenden

In dieser Anleitung erfahren Sie, wie Sie in der Dataflow SQL-Benutzeroberfläche eine SQL-Abfrage erstellen und einen Dataflow-Job zur Ausführung der Abfrage bereitstellen.

Anleitung
Apache Beam SDK installieren

In dieser Anleitung erfahren Sie, wie Sie das Apache Beam SDK installieren, damit Sie Ihre Pipelines im Dataflow-Dienst ausführen können.

Anleitung
Maschinelles Lernen mit Apache Beam und TensorFlow

In dieser Anleitung erfahren Sie, wie Sie mit Apache Beam, Dataflow und TensorFlow ein ML-Modell für molekulare Energie vorverarbeiten, trainieren und damit Vorhersagen erstellen.

Gängige Anwendungsfälle

Streamanalyse

Streamanalysen mit Google Cloud sorgen dafür, dass Daten ab der Generierung besser organisiert, nutzbar und zugänglich sind. Unsere Streaminglösung basiert auf der Autoscaling-Infrastruktur von Dataflow sowie Pub/Sub und BigQuery. Sie stellt Ihnen die zum Aufnehmen, Verarbeiten und Analysieren variierender Volumen an Echtzeitdaten erforderlichen Ressourcen bereit, damit Sie Geschäftsinformationen in Echtzeit gewinnen können. Diese abstrahierte Bereitstellung reduziert die Komplexität und macht Streamanalysen sowohl für Datenanalysten als auch für Data Engineers zugänglich.

Architektur zur Veranschaulichung von StreamanalysenTriggerAnalyzeActivateData StudioThird-party BlCreation FlowConfigure source to push event message to Pub/Sub Topic Create Pub/Sub Topic and Subscription Deploy streaming or batch Dataflow job using templates, CLI, or notebooksCreate dataset, tables, and models to receive streamBuild real-time dashboards and call external APIs IngestEnrichAnalyzeActivateEdgeMobileWebData StoreIoTPub/SubBigQueryAl PlatformBigtable Cloud FunctionsDataflow StreamingApache Beam (SDK)Dataflow BatchBackfill/ReprocessArchitecture
Verarbeitung von Sensor- und Logdaten

Gewinnen Sie mit einer intelligenten IoT-Plattform wertvolle Geschäftsinformationen aus Ihrem globalen Gerätenetzwerk.

Echtzeit-KI

Dataflow ergänzt die AI Platform von Google Cloud und TensorFlow Extended (TFX) um Streamingereignisse und ermöglicht damit neben Analysen zu Prognosezwecken auch die Betrugserkennung und Echtzeit-Personalisierung sowie weitere Anwendungsfälle im Bereich erweiterte Analysen. TFX verwendet Dataflow und Apache Beam als Engine für die verteilte Datenverarbeitung, um verschiedene Aspekte des ML-Lebenszyklus zu realisieren. Zur Unterstützung kommt dabei CI/CD für ML über Kubeflow-Pipelines zum Einsatz.

Alle Features

Autoscaling Autoscaling ermöglicht es dem Dataflow-Dienst, automatisch die richtige Anzahl von Worker-Instanzen für die Verarbeitung eines Jobs auszuwählen. Der Dataflow-Dienst kann während der Laufzeit auch je nach Job dynamisch mehr oder weniger Worker neu zuweisen.
Streaming Engine Streaming Engine trennt die Verarbeitung vom Zustandsspeicher und verschiebt Teile der Pipelineausführung aus den Worker-VMs in das Back-End des Dataflow-Dienstes, sodass das Autoscaling und die Datenlatenz erheblich verbessert werden.
Dataflow Shuffle Der dienstbasierte Dataflow Shuffle verschiebt den zum Gruppieren und Zusammenführen von Daten verwendeten Shuffle-Vorgang aus den Worker-VMs in das Back-End des Dataflow-Dienstes für Batchpipelines. Batchpipelines werden nahtlos auf Hunderte von Terabyte skaliert, ohne dass etwas abgestimmt werden muss.
Dataflow SQL Mit Dataflow SQL können Sie Ihre SQL-Kompetenzen nutzen, um Dataflow-Streamingpipelines direkt in der BigQuery-Web-UI zu erstellen. Sie können Streamingdaten aus Pub/Sub mit Dateien in Cloud Storage oder Tabellen in BigQuery zusammenführen, Ergebnisse in BigQuery schreiben und mit Google Tabellen oder anderen BI-Tools Echtzeit-Dashboards erstellen.
Flexible Resource Scheduling (FlexRS) Dataflow FlexRS reduziert die Kosten für die Batchverarbeitung, indem erweiterte Planungsverfahren, der Dataflow Shuffle-Dienst sowie eine Kombination aus VM-Instanzen auf Abruf und normalen VMs verwendet werden.
Dataflow-Vorlagen Dataflow-Vorlagen ermöglichen Ihnen das einfache Teilen Ihrer Pipelines mit Teammitgliedern und Ihrer gesamten Organisation. Sie können auch zahlreiche von Google zur Verfügung gestellte Vorlagen nutzen, um einfache, aber dennoch nützliche Datenverarbeitungsaufgaben zu implementieren.
Inline-Monitoring Mit Dataflow-Inline-Monitoring können Sie mit Ihren Jobs interagieren und direkt auf Jobmesswerte zugreifen. Außerdem können Sie Benachrichtigungen einrichten, die ausgegeben werden, wenn bestimmte Bedingungen im Hinblick auf veraltete Daten oder hohe Systemlatenz erfüllt sind.
Vom Kunden verwaltete Verschlüsselungsschlüssel Sie können eine Batch- oder Streamingpipeline erstellen, die durch einen vom Kunden verwalteten Verschlüsselungsschlüssel (Customer-Managed Encryption Key, CMEK) geschützt ist, oder auf CMEK-geschützte Daten in Quellen und Senken zugreifen.
VPC Service Controls in Dataflow Durch die Einbindung von VPC Service Controls in Dataflow profitieren Sie von zusätzlicher Sicherheit für Ihre Datenverarbeitungsumgebung, da Sie das Risiko einer Daten-Exfiltration besser verringern können.
Private IPs Durch Deaktivierung öffentlicher IP-Adressen können Sie die Sicherheit Ihrer Datenverarbeitungsinfrastruktur erhöhen. Wenn Sie keine öffentlichen IP-Adressen für Ihre Dataflow-Worker verwenden, senken Sie damit auch die Anzahl der öffentlichen IP-Adressen im Rahmen Ihres Google Cloud-Projektkontingents.

Preise

Die Abrechnung von Dataflow-Jobs erfolgt pro Sekunde und anhand der tatsächlich genutzten Dataflow-Batch- oder -Streaming-Worker. Jobs, die zusätzliche Google Cloud-Ressourcen wie Cloud Storage oder Pub/Sub nutzen, werden nach den Preisen für diese Dienste abgerechnet.

Preisangaben aufrufen

Partner

Google Cloud-Partner und externe Entwickler haben Dataflow-Integrationen entwickelt, damit Sie schnell und einfach leistungsstarke Datenverarbeitungsaufgaben beliebiger Größenordnung ausführen können.