Google Cloud wurde im Bericht „Forrester Wave: Streaming Data Platforms 2023“ als führender Anbieter eingestuft. Weitere Informationen

Weiter zu
Dataflow

Dataflow

Einheitliche serverlose, schnelle und kostengünstige Verarbeitung von Streaming- und Batchdaten.

Neukunden erhalten ein Guthaben im Wert von 300 $ für Dataflow.

  • Informationen und Aktivierung in Echtzeit mit Datenstreaming und maschinellem Lernen

  • Vollständig verwalteter Datenverarbeitungsdienst

  • Automatisierte Bereitstellung und Verwaltung von Verarbeitungsressourcen

  • Horizontales und vertikales Autoscaling von Worker-Ressourcen zur Maximierung der Ressourcennutzung

  • Von der OSS-Community vorangetriebene Innovationen mit dem Apache Beam SDK

Vorteile

Analyse von Streamingdaten mit hoher Geschwindigkeit

Dataflow ermöglicht die schnelle, vereinfachte Entwicklung von Streamingdaten-Pipelines mit besonders niedriger Latenz.

Vorgänge und Verwaltung vereinfachen

Dank des serverlosen Ansatzes von Dataflow entfällt der operative Aufwand von Data Engineering-Arbeitslasten, sodass sich Teams auf das Programmieren konzentrieren können und sich nicht um die Verwaltung von Serverclustern kümmern müssen.

Gesamtbetriebskosten reduzieren

Durch das Autoscaling von Ressourcen und eine kostenoptimierte Batchverarbeitung stellt Dataflow praktisch unbegrenzte Kapazitäten für Ihre nur temporär auftretenden Arbeitslasten und Lastspitzen bereit, ohne dass übermäßige Kosten anfallen.

Wichtige Features

Wichtige Features

Einsatzbereite Echtzeit-KI

Dank sofort einsatzbereiter ML-Features wie NVIDIA GPU und gebrauchsfertigen Mustern ermöglichen die KI-Funktionen von Dataflow Echtzeitreaktionen mit nahezu menschlicher Intelligenz auf große Mengen von Ereignissen. finden Sie weitere Informationen zu diesem Thema.

Kunden können intelligente Lösungen für eine Vielzahl von Bereichen erstellen, z. B. Analysen zu Prognosezwecken, Anomalieerkennung, Echtzeit-Personalisierung sowie weitere Anwendungsfälle im Bereich erweiterte Analysen.

Trainieren, Bereitstellen und Verwalten vollständiger ML-Pipelines, einschließlich lokaler und Remote-Inferenz mit Batch- und Streamingpipelines. 

Ressourcen-Autoscaling und dynamischer Arbeitsausgleich

Mit datenbewusstem Ressourcen-Autoscaling können Sie die Pipelinelatenz minimieren, die Ressourcennutzung maximieren und Verarbeitungskosten pro Dataset reduzieren. Dateneingaben werden automatisch partitioniert und permanent gleichmäßig verteilt, um die Worker-Ressourcennutzung auszugleichen und die Auswirkung von „Hot Keys“ auf die Pipelineleistung zu reduzieren.

Monitoring und Beobachtbarkeit

Beobachten Sie die Daten bei jedem Schritt einer Dataflow-Pipeline. Mit Stichproben realer Daten Probleme erkennen und Fehler effektiv beheben. Sie können verschiedene Ausführungen des Jobs vergleichen, um Probleme einfach zu identifizieren.

Alle Features ansehen

Dokumentation

Dokumentation

Tutorial

Serverless Data Processing with Dataflow: Foundations

In diesem Grundlagentraining erfahren Sie alles, was Sie über Dataflow wissen müssen.
Tutorial

Dataflow-Kurzanleitung mit Python

In dieser Kurzanleitung erfahren Sie, wie Sie ein Google Cloud-Projekt und eine Python-Entwicklungsumgebung einrichten, das Apache Beam SDK abrufen sowie das WordCount-Beispiel im Dataflow-Dienst ausführen und ändern.
Tutorial

Dataflow SQL verwenden

In dieser Anleitung erfahren Sie, wie Sie auf der Dataflow SQL-Benutzeroberfläche eine SQL-Abfrage erstellen und einen Dataflow-Job zum Ausführen der Abfrage bereitstellen.
Tutorial

Apache Beam SDK installieren

In dieser Anleitung erfahren Sie, wie Sie das Apache Beam SDK installieren, damit Sie Ihre Pipelines im Dataflow-Dienst ausführen können.
Tutorial

Maschinelles Lernen mit Apache Beam und TensorFlow

In dieser Anleitung erfahren Sie, wie Sie mit Apache Beam, Dataflow und TensorFlow ein ML-Modell für molekulare Energie vorverarbeiten, trainieren und damit Vorhersagen erstellen.
Tutorial

Anleitung zum Wörterzählen mit Dataflow in Java

In dieser Anleitung werden die Grundlagen des Cloud Dataflow-Dienstes durch eine einfache Beispielpipeline beschrieben, die mit dem Apache Beam Java SDK ausgeführt wird.
Tutorial

Praxisorientierte Labs: Processing Data with Google Cloud Dataflow

Hier erfahren, wie Sie mit Python und Dataflow ein textbasiertes Echtzeit-Dataset verarbeiten und dann in BigQuery speichern.
Tutorial

Praxisorientierte Labs: Streamverarbeitung mit Pub/Sub und Dataflow

Darin lernen Sie, wie Sie mit Dataflow in einem Pub/Sub-Thema veröffentlichte Nachrichten lesen, die Nachrichten nach Zeitstempel einordnen und sie in Cloud Storage speichern können.
Google Cloud Basics

Dataflow-Ressourcen

Weitere Informationen zu Preisen, Ressourcenkontingenten, häufig gestellten Fragen und mehr.

Suchen Sie nach etwas anderem?

Anwendungsfälle

Anwendungsfälle

Anwendungsfall
Streamanalysen

Mit Streamanalysen von Google Cloud sind Daten sofort nach ihrer Generierung besser organisiert, nutzbar und zugänglich. Unsere Streaming-Lösung basiert auf Dataflow, Pub/Sub und BigQuery. Sie bietet die erforderlichen Ressourcen, um schwankende Echtzeitdatenmengen für geschäftliche Datenauswertungen in Echtzeit aufzunehmen, zu verarbeiten und zu analysieren. Diese abstrahierte Bereitstellung reduziert die Komplexität und macht Streamanalysen sowohl für Datenanalysten als auch für Data Engineers zugänglich.

Datenfluss über 5 Spalten, z. B. „Trigger”, „Aufnahme”, „Anreicherung”, ”Analyse” und „Aktivierung”. Jede Spalte hat einen oberen und unteren Bereich. Oben in der Spalte „Trigger” sind Edge-Geräte (Mobilgeräte, Web, Datenspeicher und IoT), deren Daten zu Pub/Sub in die Spalte „Aufnahme” und weiter zu „Anreicherung” und „Apache Beam/Dataflow Streaming” fließen, dann nach unten zu den Feldern „Analyse” und dann „Aktivierung”, wo sie zurück zu den Edge-Geräten in Spalte 1 fließen. Von Apache Beam in Spalte 3 fließen die Daten bidirektional zur Spalte Analyze, in BigQuery zur AI Platform und zu Bigtable: alle 3 werden von Backfill/Neuverarbeitung (Dataflow-Batch) gefüttert. Der Datenfluss bewegt sich von BigQuery zur Spalte „Aktivierung”, in Data Studio, BI von Drittanbietern und Cloud Functions, die zurück zu den Edge-Geräten in Spalte 1 fließen. Im unteren Abschnitt von Spalten steht „Create Flow: Trigger“ (Quelle für Push-Ereignisnachricht an Pub/Sub-Thema konfigurieren) Abläufe zur Aufnahme von „Pub/Sub-Thema und -Abo erstellen“ Anreicherung „Streaming- oder Batch-Dataflow-Job mithilfe von Vorlagen, CLI oder Notebooks bereitstellen“ Um das Dataset „Dataset, Tabellen und Modelle zum Empfang erstellen“ zu analysieren. Aktivieren Sie „Dashboards in Echtzeit erstellen und externe APIs aufrufen“.
Anwendungsfall
Echtzeit-KI

Dataflow ergänzt Vertex AI von Google Cloud und TensorFlow Extended (TFX) um Streamingereignisse und ermöglicht damit neben Analysen zu Prognosezwecken auch die Betrugserkennung und Echtzeit-Personalisierung sowie weitere Anwendungsfälle im Bereich erweiterte Analysen. TFX verwendet Dataflow und Apache Beam als Engine für die verteilte Datenverarbeitung, um verschiedene Aspekte des ML-Lebenszyklus zu realisieren. Zur Unterstützung kommt dabei CI/CD für ML über Kubeflow-Pipelines zum Einsatz.

Anwendungsfall
Verarbeitung von Sensor- und Logdaten

Gewinnen Sie mit unserer intelligenten IoT-Plattform wertvolle Geschäftsinformationen aus Ihrem globalen Gerätenetzwerk.

Alle Features

Alle Features

Dataflow ML
Pipelines für maschinelles Lernen (ML) ganz einfach bereitstellen und verwalten. Verwenden Sie ML-Modelle für lokale und Remote-Inferenz mit Batch- und Streaming-Pipelines. Verwenden Sie Datenverarbeitungstools, um Ihre Daten für das Modelltraining vorzubereiten und die Ergebnisse der Modelle zu verarbeiten.
Dataflow GPU
Datenverarbeitungssystem, das für Leistung und Kosten Ihrer GPU-Nutzung optimiert ist. Unterstützung einer Vielzahl von NVIDIA-GPUs
Vertikales Autoscaling
Passt die Computing-Kapazität, die jedem Worker zugewiesen ist, basierend auf der Auslastung dynamisch an. Vertikales Autoscaling arbeitet eng mit dem horizontalen Autoscaling zusammen, um Worker nahtlos an die Anforderungen der Pipeline anzupassen.
Horizontales Autoscaling
Horizontales Autoscaling ermöglicht es dem Dataflow-Dienst, automatisch die richtige Anzahl von Worker-Instanzen für die Verarbeitung eines Jobs auszuwählen. Der Dataflow-Dienst kann während der Laufzeit auch je nach Job dynamisch mehr oder weniger Worker neu zuweisen.
Individuell anpassbar
Durch Right Fitting werden phasenspezifische Ressourcenpools erstellt, die für die einzelnen Phasen optimiert sind, um unnötige Ressourcen zu vermeiden.
Intelligente Diagnosen
Verschiedene Features, darunter 1) SLO-basierte Daten-Pipeline-Verwaltung, 2) Visualisierungsfunktionen für Jobs, die Nutzern eine visuelle Möglichkeit bieten, ihre Jobdiagramme zu prüfen und Engpässe zu erkennen, 3. ) Automatische Empfehlungen zum Ermitteln und Optimieren von Leistungs- und Verfügbarkeitsproblemen.
Streaming Engine
Streaming Engine trennt das Computing vom Zustandsspeicher und verschiebt Teile der Pipelineausführung aus den Worker-VMs in das Back-End des Dataflow-Dienstes, sodass das Autoscaling und die Datenlatenz erheblich verbessert werden.
Dataflow Shuffle
Der dienstbasierte Dataflow Shuffle verschiebt den zum Gruppieren und Zusammenführen von Daten verwendeten Shuffle-Vorgang aus den Worker-VMs in das Back-End des Dataflow-Dienstes für Batchpipelines. Batchpipelines werden nahtlos auf Hunderte von Terabyte skaliert, ohne dass etwas abgestimmt werden muss.
Dataflow SQL
Mit Dataflow SQL können Sie Ihre SQL-Kompetenzen nutzen, um Dataflow-Streamingpipelines direkt in der BigQuery-Web-UI zu erstellen. Sie können Streamingdaten aus Pub/Sub mit Dateien in Cloud Storage oder Tabellen in BigQuery zusammenführen, Ergebnisse in BigQuery schreiben und mit Google Tabellen oder anderen BI-Tools Echtzeit-Dashboards erstellen.
Flexible Resource Scheduling (FlexRS)
Dataflow FlexRS reduziert die Kosten für die Batchverarbeitung. Dazu werden erweiterte Planungsverfahren, der Dataflow Shuffle-Dienst sowie eine Kombination aus VM-Instanzen auf Abruf und normalen VMs verwendet.
Dataflow-Vorlagen
Dataflow-Vorlagen ermöglichen Ihnen das einfache Teilen Ihrer Pipelines mit Teammitgliedern und Ihrer gesamten Organisation. Sie können auch zahlreiche von Google zur Verfügung gestellte Vorlagen nutzen, um einfache, aber nützliche Datenverarbeitungsaufgaben zu implementieren. Dies beinhaltet auch Change Data Capture-Vorlagen für Anwendungsfälle im Bereich Streaminganalysen. Mit Flex-Vorlagen können Sie eine Vorlage aus einer beliebigen Dataflow-Pipeline erstellen.
Notebooks-Integration
Erstellen Sie iterativ ganz neue Pipelines mit Vertex AI Notebooks und stellen Sie diese mit dem Dataflow-Runner bereit. Schreiben Sie Apache Beam-Pipelines Schritt für Schritt. Untersuchen Sie hierzu Pipeline-Grafiken in einem REPL-Workflow (Read-Eval-Print-Loop). Notebooks ist über Vertex AI von Google verfügbar und ermöglicht Ihnen das Schreiben von Pipelines in einer intuitiven Umgebung mit neuesten Data Science- und ML-Frameworks.
Change Data Capture in Echtzeit
Synchronisieren oder replizieren Sie Daten zuverlässig und mit minimaler Latenz über heterogene Datenquellen, um Streaminganalysen zu ermöglichen. Erweiterbare Dataflow-Vorlagen können in Datastream eingebunden werden, um Daten aus Cloud Storage in BigQuery, PostgreSQL oder Spanner zu replizieren. Der Debezium-Connector von Apache Beam bietet eine Open-Source-Option, um Datenänderungen von MySQL, PostgreSQL, SQL Server und Db2 aufzunehmen.
Inline-Monitoring
Mit Dataflow Inline-Monitoring können Sie direkt auf Jobmesswerte zugreifen und so einfacher Fehlerbehebungen bei Batch- und Streamingpipelines vornehmen. Sie können sowohl auf Schritt- als auch auf Worker-Ebene auf Monitoring-Diagramme zugreifen und Alarme für Bedingungen wie veraltete Daten und hohe Systemlatenz einrichten.
Vom Kunden verwaltete Verschlüsselungsschlüssel
Sie können eine Batch- oder Streamingpipeline erstellen, die durch einen vom Kunden verwalteten Verschlüsselungsschlüssel (Customer-Managed Encryption Key, CMEK) geschützt ist, oder auf CMEK-geschützte Daten in Quellen und Senken zugreifen.
VPC Service Controls in Dataflow
Durch die Einbindung von VPC Service Controls in Dataflow profitieren Sie von zusätzlicher Sicherheit für Ihre Datenverarbeitungsumgebung, da Sie das Risiko einer Daten-Exfiltration besser verringern können.
Private IPs
Durch Deaktivierung öffentlicher IP-Adressen können Sie die Sicherheit der Infrastruktur Ihrer Datenverarbeitung erhöhen. Wenn Sie keine öffentlichen IP-Adressen für Ihre Dataflow-Worker verwenden, senken Sie damit auch die Anzahl der öffentlichen IP-Adressen, die Sie im Rahmen Ihres Google Cloud-Projektkontingents nutzen.

Preise

Preise

Die Abrechnung von Dataflow-Jobs erfolgt pro Sekunde und anhand der tatsächlich genutzten Dataflow-Batch- oder -Streaming-Worker. Zusätzliche Ressourcen wie Cloud Storage oder Pub/Sub werden nach den Tarifen für diese Dienste abgerechnet.

Partner

Partnerlösungen kennenlernen

Google Cloud-Partner haben Lösungen für Dataflow entwickelt, mit denen Sie schnell und einfach leistungsstarke Datenverarbeitungsaufgaben jeder Größenordnung ausführen können.


KI-Produkte von Google Cloud entsprechen unseren SLA-Richtlinien. Sie bieten eventuell von anderen Google Cloud-Diensten abweichende Latenz- oder Verfügbarkeitsgarantien.

Gleich loslegen

Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“-Produkte kennenzulernen.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Konsole
  • Sparen Sie Geld mit unserem transparenten Preisansatz
  • „Pay-as-you-go“-Preise von Google Cloud bieten automatische Einsparungen basierend auf der monatlichen Nutzung und ermäßigten Preisen für Prepaid-Ressourcen Kontaktieren Sie uns, um ein Angebot zu erhalten.
Google Cloud