• Themen
  • Was ist ein Data Lake?

Was ist ein Data Lake?

Ein Data Lake ist ein zentrales Repository zum Speichern, Verarbeiten und Sichern großer Mengen strukturierter, semistrukturierter oder unstrukturierter Daten. Die Daten können in ihrem nativen Format gespeichert werden und es können Daten jeder Art verarbeitet werden unabhängig von Größenbeschränkungen.

Erfahren Sie mehr darüber, wie Sie mit Google Cloud Ihren Data Lake modernisieren.

Übersicht

Ein Data Lake stellt eine skalierbare und sichere Plattform bereit, mit der Unternehmen folgende Vorgänge durchführen können: Aufnehmen von Daten aus beliebigen Systemen mit beliebiger Geschwindigkeit, auch wenn die Daten aus lokalen, Cloud- oder Edge-Computing-Systemen stammen; Speichern wiedergabegetreuer Daten von beliebiger Art und Menge; Verarbeiten in Echtzeit oder im Batchmodus; Analysieren mithilfe von SQL, Python, R oder anderen Programmiersprachen sowie Drittanbieterdaten oder Analyseanwendungen.

Bei einem Vergleich mit Data Warehouses ist zu beachten, dass Data Lakes unterschiedliche Features und nicht nur Speicherfunktionen bieten.

Sowohl Data Lakes als auch Data Warehouses speichern zwar Daten, aber sind jeweils für unterschiedliche Nutzungen optimiert. Die beiden Tools ergänzen sich eher, als dass sie miteinander konkurrieren, und sind unter Umständen in Kombination am sinnvollsten. Ein Beispiel: Data Warehouses sind ideal für regelmäßige Berichte und Analysen im Rahmen wiederkehrender Abläufe, z. B. monatliche Verkaufsberichte oder Analysen der Verkäufe pro Region oder des Website-Traffic. 

Benötigen Sie einen Data Lake?

Wenn Sie herausfinden möchten, ob Ihr Unternehmen einen Data Lake benötigt oder nicht, sollten Sie folgende Fragen berücksichtigen: Mit welchen Arten von Daten arbeiten Sie? Was möchten Sie mit den Daten tun? Wie komplex ist Ihr Datenerfassungsprozess? Wie sieht Ihre Strategie bezüglich Datenverwaltung und Data Governance aus? Welche Tools und Kompetenzen sind in Ihrem Unternehmen vorhanden?

Viele Unternehmen bewerten den Nutzen von Data Lakes heute neu: Sie eignen sich nicht nur als Repository zum Speichern wiedergabegetreuer Daten, sondern ermöglichen aufschlussreiche Einblicke in Geschäftssituationen, da sie über mehr Kontext als je zuvor verfügen und somit Testanalysen beschleunigen können.

Data Lakes sind primär für die Handhabung von Big Data konzipiert und können Rohdaten ohne Umwandlung batchweise oder per Streaming aufnehmen. Unternehmen setzen Data Lakes ein, um Folgendes zu erreichen:

  • Gesamtbetriebskosten senken
  • Datenverwaltung vereinfachen
  • Einbinden von künstlicher Intelligenz und maschinellem Lernen vorbereiten 
  • Analysen beschleunigen
  • Sicherheit und Governance verbessern

 

Einige Anwendungsfälle für Data Lakes

Data Lakes schaffen die Grundlage für die Verwendung von Analysen und künstlicher Intelligenz. Deshalb nutzen Unternehmen jeder Branche Data Lakes, um den Umsatz zu steigern, die Kosten zu senken und Risiken zu minimieren.

Medien und Unterhaltung

Anbieter von Musikstreaming, Radio- und Podcast-Diensten können den Umsatz steigern, indem sie ihre Empfehlungssysteme verbessern. Dadurch werden ihre Dienste stärker genutzt und sie können mehr Anzeigen verkaufen.

Telekommunikation

Multinationale Telekommunikationskonzerne können die Kosten senken, indem sie Modelle zur Abwanderungsneigung erstellen und so die Kundenabwanderung reduzieren.

Finanzdienstleistungen

Investmentfirmen nutzen Data Lakes als Grundlage für maschinelles Lernen. Damit können sie Portfoliorisiken verwalten, sobald Echtzeitmarktdaten verfügbar gemacht werden.