Das Datenmanagement ist ein wichtiger Bestandteil von Unternehmensanalysen und der Schaffung einer außergewöhnlichen Kundenerfahrung. Sie haben wahrscheinlich schon von Data Lakes und Data Warehouses gehört, aber es ist nicht einfach zu entscheiden, welches für Ihr Projekt geeignet ist. Diese beiden Systeme verarbeiten Daten auf unterschiedliche Weise. Ein Data Lake ist wie ein großer Pool mit Rohdaten, bei dem Sie den Zweck nicht sofort definieren. Ein Data Warehouse ist eher wie eine Bibliothek mit organisierten, gefilterten Daten, die für bestimmte Aufgaben bereit sind. Wenn Sie die Unterschiede kennen, können Sie das richtige Tool für Ihre Datenanforderungen auswählen.
Der Hauptunterschied zwischen diesen beiden Systemen besteht darin, wie sie mit Datenstruktur und -nutzung umgehen. Ein Data Lake ist für unstrukturierte Rohdaten, während ein Data Warehouse für strukturierte, verarbeitete Daten gedacht ist.
Funktion | Data Lake | Data Warehouse |
Datentyp | Alle Daten (Rohdaten, strukturierte und unstrukturierte Daten) | Verarbeitete, strukturierte Daten |
Zweck | Noch nicht definiert | Definiert und spezifisch |
Nutzer | Data Scientists, Data Engineers | Datenanalysten, Business Intelligence-Analysten |
Bedienungshilfen | Sehr flexibel, einfach zu ändern | Schwerer zu ändern, starrer |
Wird verarbeitet | Schema-on-Read (wird bei Verwendung definiert) | Schema-on-Write (vor dem Speichern definiert) |
Vorteile |
|
|
Funktion
Data Lake
Data Warehouse
Datentyp
Alle Daten (Rohdaten, strukturierte und unstrukturierte Daten)
Verarbeitete, strukturierte Daten
Zweck
Noch nicht definiert
Definiert und spezifisch
Nutzer
Data Scientists, Data Engineers
Datenanalysten, Business Intelligence-Analysten
Bedienungshilfen
Sehr flexibel, einfach zu ändern
Schwerer zu ändern, starrer
Wird verarbeitet
Schema-on-Read (wird bei Verwendung definiert)
Schema-on-Write (vor dem Speichern definiert)
Vorteile
Stellen Sie sich vor, Sie entwickeln ein mobiles Spiel. Sie möchten jeden einzelnen Button-Klick von jedem Nutzer erfassen. Sie wissen noch nicht, welche Klicks für Ihr nächstes Update wichtig sind. Sie können all diese Roh-JSON-Ereignisse direkt in einen Data Lake senden. Später können Ihre Data Scientists ein Script ausführen, um Muster in diesen Rohdaten zu finden.
Ein weiteres Beispiel sind IoT-Sensoren. Wenn Sie Tausende von Sensoren haben, die jede Sekunde Temperaturdaten senden, können Sie diese Rohdaten in einen Lake verschieben. Sie erhalten einen vollständigen Verlauf aller Ereignisse, ohne sich Gedanken über die Formatierung machen zu müssen.
Nehmen wir als Beispiel ein Einzelhandelsunternehmen, das seine Verkäufe im Blick behalten muss. Jede Nacht werden alle Bestellungen des Tages verarbeitet, die Adressen bereinigt, die Steuer berechnet und die Daten in einem Data Warehouse gespeichert. Ein Manager kann dann einen Bericht erstellen, um genau zu sehen, wie viele blaue Hemden in Chicago verkauft wurden. Die Daten sind übersichtlich und bereit für die Nutzung in einem Diagramm.
Eine Bank könnte ein Data Warehouse auch verwenden, um Konten zu verfolgen. Sie muss jederzeit den genauen Kontostand jedes Kunden kennen. Sie möchten keine Rohlogs, sondern eine strukturierte Tabelle, in der jede Transaktion klar dargestellt ist.
Data Scientists müssen häufig KI-Modelle erstellen, die betrügerische Buchungen in Echtzeit erkennen können. Da die Daten aus vielen Quellen stammen, z. B. aus Websiteprotokollen, Ereignissen in mobilen Apps und Drittanbieterpartnern, eignen sich Data Lakes am besten zum Trainieren von KI-Modellen.
Richten Sie zuerst eine Pipeline ein, um jedes einzelne Rohereignis an Cloud Storage zu senden. Dazu gehören unübersichtliche JSON-Dateien von der Website und Binärprotokolle aus der mobilen App. Sie müssen sich noch keine Gedanken über die Formatierung der Daten machen, da Cloud Storage für diese Art Mengen ausgelegt ist.
Damit die Daten für das KI-Modell nützlich sind, müssen Sie sie bereinigen. Mit Google Cloud Service for Apache Spark können Sie einen serverlosen Apache Spark-Job ausführen. So können Sie Millionen von Rohlogs in ein strukturiertes Format umwandeln, ohne Server oder Cluster verwalten zu müssen.
Jetzt, da die Daten bereit sind, können Sie sie in ein Tool für maschinelles Lernen einfügen. Da die ursprünglichen Rohdaten immer noch im Data Lake vorhanden sind, können Sie jederzeit zurückgehen und sich „versteckte“ Details ansehen, die zur Verbesserung des Modells beitragen könnten.
Mit einem Data Lake können Sie alles kostengünstig speichern und nur das verarbeiten, was Sie zum Erstellen des Modells benötigen.
Sehen wir uns nun einen Data-Science-Anwendungsfall für den Einzelhandel an. Sie können vorhersagen, wie viele Wintermäntel das Unternehmen im nächsten Monat verkaufen wird. Da die Verkaufsdaten bereits bereinigt und in einer Datenbank gespeichert sind, empfiehlt es sich, für diese Aufgabe ein Data Warehouse zu verwenden.
Beginnen Sie mit BigQuery, das als zentrales Data Warehouse eines Unternehmens dient. Die Verkaufsdaten sind bereits in übersichtlichen Tabellen mit Spalten für Datum, Preis und Produkt-ID organisiert. Da die Daten bereits strukturiert sind, müssen Sie sie nicht erst bereinigen.
Schreiben Sie eine SQL-Abfrage, um die Winterverkäufe der letzten fünf Jahre zu sehen. Obwohl es Milliarden von Datenzeilen gibt, findet BigQuery die Antwort in Sekundenschnelle. So können Sie verschiedene Ideen ausprobieren und die Prognose schnell verfeinern.
Sobald die Prognose fertig ist, können Sie mit einem integrierten Tool ein Dashboard erstellen. Das Marketingteam kann jetzt genau sehen, wie viele Mäntel es bestellen muss. Da BigQuery serverlos ist, zahlt das Unternehmen nur für die ausgeführten Abfragen, was die Kosten niedrig hält.
Für diesen Anwendungsfall ist das Data Warehouse das beste Tool, da es schnelle, zuverlässige Antworten auf spezifische Geschäftsfragen liefert und Daten verwendet, die bereits in einem nutzbaren Format vorliegen.
Die Entscheidung zwischen einem Data Lake und einem Data Warehouse hängt davon ab, was Sie aufbauen möchten. Wenn Sie viele Rohdaten haben und diese mit Code untersuchen möchten, beginnen Sie mit einem Data Lake. Wenn Sie spezifische geschäftliche Fragen haben und schnelle, zuverlässige Berichte benötigen, ist ein Data Warehouse wahrscheinlich die bessere Wahl. Viele Unternehmen nutzen beide zusammen, um die Vorteile beider Welten zu nutzen.
Profitieren Sie von einem Guthaben in Höhe von 300 $ und mehr als 20 immer kostenlose Produkten, um Google Cloud kennenzulernen.