Data Lake oder Data Warehouse

Das Datenmanagement ist ein wichtiger Bestandteil von Unternehmensanalysen und der Schaffung einer außergewöhnlichen Kundenerfahrung. Sie haben wahrscheinlich schon von Data Lakes und Data Warehouses gehört, aber es ist nicht einfach zu entscheiden, welches für Ihr Projekt geeignet ist. Diese beiden Systeme verarbeiten Daten auf unterschiedliche Weise. Ein Data Lake ist wie ein großer Pool mit Rohdaten, bei dem Sie den Zweck nicht sofort definieren. Ein Data Warehouse ist eher wie eine Bibliothek mit organisierten, gefilterten Daten, die für bestimmte Aufgaben bereit sind. Wenn Sie die Unterschiede kennen, können Sie das richtige Tool für Ihre Datenanforderungen auswählen.

Definition von Data Lake und Data Warehouse

  • Ein Data Lake ist ein zentraler Ort, an dem Sie alle Ihre Daten in beliebiger Größenordnung speichern können. Sie müssen die Daten nicht ändern, bevor Sie sie speichern. Es speichert Daten in ihrer Rohform, ob strukturiert, semistrukturiert oder unstrukturiert. Das macht es zu einer guten Wahl für Teams, die aktuell viele Daten erfassen und später entscheiden möchten, wie sie diese verwenden.
  • Ein Data Warehouse ist ein System, das für die Datenanalyse und Berichterstellung entwickelt wurde. Im Gegensatz zu einem Data Lake enthält ein Data Warehouse nur Daten, die bereits bereinigt und verarbeitet wurden. Sie verwendet eine bestimmte Struktur oder ein „Schema“, um die Daten zu organisieren. Dadurch lassen sich Abfragen sehr schnell ausführen und Geschäftsberichte erstellen.

Was ist der Unterschied zwischen einem Data Lake und einem Data Warehouse?

Der Hauptunterschied zwischen diesen beiden Systemen besteht darin, wie sie mit Datenstruktur und -nutzung umgehen. Ein Data Lake ist für unstrukturierte Rohdaten, während ein Data Warehouse für strukturierte, verarbeitete Daten gedacht ist.

Funktion

Data Lake

Data Warehouse

Datentyp

Alle Daten (Rohdaten, strukturierte und unstrukturierte Daten)

Verarbeitete, strukturierte Daten

Zweck

Noch nicht definiert

Definiert und spezifisch

Nutzer

Data Scientists, Data Engineers

Datenanalysten, Business Intelligence-Analysten

Bedienungshilfen

Sehr flexibel, einfach zu ändern

Schwerer zu ändern, starrer

Wird verarbeitet

Schema-on-Read (wird bei Verwendung definiert)

Schema-on-Write (vor dem Speichern definiert)

Vorteile


  • Geringe Kosten bei großen Mengen
  • Flexibel für jeden Datentyp
  • Skalierbar für KI- und ML-Modelle
  • Leistungsstarke SQL-Abfragen
  • Hohe Datenqualität und Vertrauenswürdigkeit
  • Sicher und einfach für SQL-Nutzer

Funktion

Data Lake

Data Warehouse

Datentyp

Alle Daten (Rohdaten, strukturierte und unstrukturierte Daten)

Verarbeitete, strukturierte Daten

Zweck

Noch nicht definiert

Definiert und spezifisch

Nutzer

Data Scientists, Data Engineers

Datenanalysten, Business Intelligence-Analysten

Bedienungshilfen

Sehr flexibel, einfach zu ändern

Schwerer zu ändern, starrer

Wird verarbeitet

Schema-on-Read (wird bei Verwendung definiert)

Schema-on-Write (vor dem Speichern definiert)

Vorteile


  • Geringe Kosten bei großen Mengen
  • Flexibel für jeden Datentyp
  • Skalierbar für KI- und ML-Modelle
  • Leistungsstarke SQL-Abfragen
  • Hohe Datenqualität und Vertrauenswürdigkeit
  • Sicher und einfach für SQL-Nutzer

Branchenbeispiele

Stellen Sie sich vor, Sie entwickeln ein mobiles Spiel. Sie möchten jeden einzelnen Button-Klick von jedem Nutzer erfassen. Sie wissen noch nicht, welche Klicks für Ihr nächstes Update wichtig sind. Sie können all diese Roh-JSON-Ereignisse direkt in einen Data Lake senden. Später können Ihre Data Scientists ein Script ausführen, um Muster in diesen Rohdaten zu finden.

Ein weiteres Beispiel sind IoT-Sensoren. Wenn Sie Tausende von Sensoren haben, die jede Sekunde Temperaturdaten senden, können Sie diese Rohdaten in einen Lake verschieben. Sie erhalten einen vollständigen Verlauf aller Ereignisse, ohne sich Gedanken über die Formatierung machen zu müssen.

Nehmen wir als Beispiel ein Einzelhandelsunternehmen, das seine Verkäufe im Blick behalten muss. Jede Nacht werden alle Bestellungen des Tages verarbeitet, die Adressen bereinigt, die Steuer berechnet und die Daten in einem Data Warehouse gespeichert. Ein Manager kann dann einen Bericht erstellen, um genau zu sehen, wie viele blaue Hemden in Chicago verkauft wurden. Die Daten sind übersichtlich und bereit für die Nutzung in einem Diagramm.

Eine Bank könnte ein Data Warehouse auch verwenden, um Konten zu verfolgen. Sie muss jederzeit den genauen Kontostand jedes Kunden kennen. Sie möchten keine Rohlogs, sondern eine strukturierte Tabelle, in der jede Transaktion klar dargestellt ist.

KI-Modell mit einem Data Lake erstellen

Data Scientists müssen häufig KI-Modelle erstellen, die betrügerische Buchungen in Echtzeit erkennen können. Da die Daten aus vielen Quellen stammen, z. B. aus Websiteprotokollen, Ereignissen in mobilen Apps und Drittanbieterpartnern, eignen sich Data Lakes am besten zum Trainieren von KI-Modellen.

Rohdaten erheben

Richten Sie zuerst eine Pipeline ein, um jedes einzelne Rohereignis an Cloud Storage zu senden. Dazu gehören unübersichtliche JSON-Dateien von der Website und Binärprotokolle aus der mobilen App. Sie müssen sich noch keine Gedanken über die Formatierung der Daten machen, da Cloud Storage für diese Art Mengen ausgelegt ist.

Verarbeitung in großem Umfang

Damit die Daten für das KI-Modell nützlich sind, müssen Sie sie bereinigen. Mit Google Cloud Service for Apache Spark können Sie einen serverlosen Apache Spark-Job ausführen. So können Sie Millionen von Rohlogs in ein strukturiertes Format umwandeln, ohne Server oder Cluster verwalten zu müssen.

Modell trainieren

Jetzt, da die Daten bereit sind, können Sie sie in ein Tool für maschinelles Lernen einfügen. Da die ursprünglichen Rohdaten immer noch im Data Lake vorhanden sind, können Sie jederzeit zurückgehen und sich „versteckte“ Details ansehen, die zur Verbesserung des Modells beitragen könnten.

Mit einem Data Lake können Sie alles kostengünstig speichern und nur das verarbeiten, was Sie zum Erstellen des Modells benötigen.

Umsätze mit einem Data Warehouse vorhersagen

Sehen wir uns nun einen Data-Science-Anwendungsfall für den Einzelhandel an. Sie können vorhersagen, wie viele Wintermäntel das Unternehmen im nächsten Monat verkaufen wird. Da die Verkaufsdaten bereits bereinigt und in einer Datenbank gespeichert sind, empfiehlt es sich, für diese Aufgabe ein Data Warehouse zu verwenden.

Zugriff auf bereinigte Daten

Beginnen Sie mit BigQuery, das als zentrales Data Warehouse eines Unternehmens dient. Die Verkaufsdaten sind bereits in übersichtlichen Tabellen mit Spalten für Datum, Preis und Produkt-ID organisiert. Da die Daten bereits strukturiert sind, müssen Sie sie nicht erst bereinigen.

Schnelle Abfragen ausführen

Schreiben Sie eine SQL-Abfrage, um die Winterverkäufe der letzten fünf Jahre zu sehen. Obwohl es Milliarden von Datenzeilen gibt, findet BigQuery die Antwort in Sekundenschnelle. So können Sie verschiedene Ideen ausprobieren und die Prognose schnell verfeinern.

Statistiken teilen

Sobald die Prognose fertig ist, können Sie mit einem integrierten Tool ein Dashboard erstellen. Das Marketingteam kann jetzt genau sehen, wie viele Mäntel es bestellen muss. Da BigQuery serverlos ist, zahlt das Unternehmen nur für die ausgeführten Abfragen, was die Kosten niedrig hält.

Für diesen Anwendungsfall ist das Data Warehouse das beste Tool, da es schnelle, zuverlässige Antworten auf spezifische Geschäftsfragen liefert und Daten verwendet, die bereits in einem nutzbaren Format vorliegen.

Meistern Sie Ihre geschäftlichen Herausforderungen mit Google Cloud

Neukunden erhalten ein Guthaben im Wert von 300 $ für Google Cloud.
Sprechen Sie mit einem Google Cloud-Vertriebsexperten, um Ihre besonderen Herausforderungen im Detail zu besprechen.

Zwischen Data Lakes und Data Warehouses wählen

Die Entscheidung zwischen einem Data Lake und einem Data Warehouse hängt davon ab, was Sie aufbauen möchten. Wenn Sie viele Rohdaten haben und diese mit Code untersuchen möchten, beginnen Sie mit einem Data Lake. Wenn Sie spezifische geschäftliche Fragen haben und schnelle, zuverlässige Berichte benötigen, ist ein Data Warehouse wahrscheinlich die bessere Wahl. Viele Unternehmen nutzen beide zusammen, um die Vorteile beider Welten zu nutzen.

Gleich loslegen

Profitieren Sie von einem Guthaben in Höhe von 300 $ und mehr als 20 immer kostenlose Produkten, um Google Cloud kennenzulernen.

Google Cloud