Lösungen für Streamanalysen

Ereignisstreams in Echtzeit in einer vollständig verwalteten Infrastruktur aufnehmen, verarbeiten und analysieren

Kostenlos testen Vertrieb kontaktieren

Integrierte, offene Streamanalyse

Die Streamanalyse hat sich als einfachere und schnellere Alternative zu Batch-ETL-Vorgängen entwickelt. So können Sie maximalen Nutzen aus Nutzerinteraktionsereignissen sowie Anwendungs- und Maschinen-Logs ziehen. Diese Datenströme schnell und effizient aufzunehmen, zu verarbeiten und zu analysieren, ist unter anderem bei der Betrugserkennung, der Clickstream-Analyse und Online-Empfehlungen von entscheidender Bedeutung. Für solche Anwendungsfälle bietet Google Cloud eine integrierte und offene Streamanalyselösung, die sich einfach implementieren, skalieren und verwalten lässt.

Auf Ereignisse sofort reagieren

Nehmen Sie mit Cloud Pub/Sub Millionen von Streamingereignissen pro Sekunde von überall auf der Welt auf und nutzen Sie das einzigartige, schnelle private Netzwerk von Google. Zur Verarbeitung der Datenströme empfiehlt sich Cloud Dataflow, das für eine zuverlässige, genau einmalige Datentransformation mit geringer Latenz sorgt. Zur sofortigen Analyse über SQL oder gängige Virtualisierungstools werden die transformierten Daten in BigQuery, den cloudnativen Data-Warehouse-Dienst, übertragen. Außerdem lassen sich Betrugserkennung, Personalisierung in Echtzeit und ähnliche Anwendungsfälle um prognostische Analysen ergänzen, indem Sie auf TensorFlow basierende Cloud Machine Learning-Modelle und -APIs in Ihre Streaming-Datenpipelines integrieren.

Entwicklung kompromisslos beschleunigen

Die Streamanalyse auf der GCP vereinfacht ETL-Pipelines, ohne die Stabilität, Genauigkeit oder Funktionalität zu beeinträchtigen. Cloud Dataflow unterstützt eine schnelle Pipeline-Entwicklung über wirkungsvolle APIs für Java und Python im Apache Beam SDK. Es bietet eine umfassende Auswahl an Windowing- und Sitzungsanalyse-Primitiven sowie Quell- und Senk-Connectors. Außerdem ermöglicht Ihnen das einzigartige, einheitliche Entwicklungsmodell von Beam, bei Streaming- und Batch-Pipelines mehr Code wiederzuverwenden.

Vorgänge und Verwaltung vereinfachen

Sobald Ihre Streaming-Datenverarbeitungspipelines laufen, müssen Sie sich dank des serverlosen Ansatzes der GCP nicht weiter darum kümmern. Aspekte wie Leistung, Skalierung, Verfügbarkeit, Sicherheit und Compliance werden automatisch bearbeitet. Die Integration in Stackdriver, die einheitliche Logging- und Monitoring-Lösung der GCP, bietet Ihnen die Möglichkeit, Ihre Pipelines in Echtzeit zu überwachen und Fehler zu beheben. Umfassende Visualisierungen, Logs und Benachrichtigungen tragen dazu bei, mögliche Probleme zu identifizieren und auf diese zu reagieren.

Bevorzugte Tools und Systeme nutzen

Streamanalysen sind auf der GCP grundsätzlich offen und interoperabel. Die offene API von Cloud Pub/Sub sowie mehrere Clients ermöglichen Multi-Cloud- und Hybrid-Bereitstellungen. Nutzern von Apache Kafka empfiehlt Google für die Ausführung der verwalteten Kafka-Lösung Confluent. Ein Cloud Dataflow-Connector ermöglicht die einfache Einbindung in die GCP. BigQuery arbeitet über Standard-SQL nahtlos mit gängigen ETL- und BI-Tools zusammen. Datenverarbeitungspipelines, die mit dem Beam-basierten Cloud Dataflow 2.x SDK geschrieben wurden, sind zu Cloud Dataflow, Apache Spark und Apache Flink portierbar. Außerdem wird Spark für Streaming- und Batch-Arbeitslasten über Cloud Dataproc unterstützt.

LÖSUNGSKOMPONENTEN

Dienst Anwendungsfall für Streamanalysen
Cloud Pub/Sub Aufnahme großer Mengen von Streamingdaten von überall auf der Welt. (Open-Source-Alternative in dieser Lösung: Apache Kafka)
Cloud Dataflow Umwandlung und Anreicherung der aufgenommenen Daten mit gleicher Zuverlässigkeit und Aussagekraft sowohl im Streaming- als auch im Batchmodus. (Open-Source-Alternative in dieser Lösung: Spark auf Cloud Dataproc)
BigQuery Vollständig verwalteter Data-Warehouse-Dienst, der 100.000 Streaming-Zeileneinfügungen pro Sekunde unterstützt und eine Ad-hoc-Analyse von Echtzeitdaten mit Standard-SQL ermöglicht.
Apache Beam Einheitliches Entwicklungs-Framework für die Programmierung von Streaming- und Batch-Pipelines. Wird von Google als Cloud Dataflow SDK 2.x ausgeliefert.
Cloud Machine Learning Gestalten Sie Ihre Pipeline noch intelligenter, indem Sie die Ereignisstreams über TensorFlow-basierte Modelle für maschinelles Lernen ausführen, die entweder benutzerdefiniert (über Cloud Machine Learning Engine) oder vordefiniert (über Cloud APIs) sind.
Cloud Bigtable Spaltenorientierter Speicher mit geringer Latenz für Schlüssel/Wert-Paare, der sich hervorragend für umfangreiche Zeitachsen eignet sowie für Anwendungen, die eine niedrige Leselatenz erfordern.

Zusätzliche Ressourcen

Genau einmalige Verarbeitung

Bedeutung der "genau einmaligen" Verarbeitung in Cloud Dataflow

Blogpost lesen

Cloud Dataflow: Beispielpipelines

Veranschaulichung der Funktionsweise von Pipelines anhand von Spielen auf Mobilgeräten

Dokumentation ansehen

Codelab: NYC Taxi Tycoon

Angeleitete praktische Codierungsübung zur Verarbeitung von Streamingdaten mit Dataflow und Pub/Sub

Beispiel-App ansehen

Lösung für Finanzdienstleistungen

Aufbau eines echtzeitnahen Analysesystems, das sich auf Tausende von simultanen Datenströme skalieren lässt

Lösungsartikel lesen

Architekturdiagramm

Darstellung der Architektur für eine optimale Aufnahme umfangreicher Analysedaten auf der Google Cloud Platform

Artikel lesen

Streaminggrundlagen

Grundlegender Artikel von Tyler Akidau zum Thema Streaming

Artikel lesen