Was ist ein Data Lakehouse?

Unternehmen auf der ganzen Welt suchen nach Speicherlösungen, die die Anforderungen an Volumen, Latenz, Ausfallsicherheit und Datenzugriff von Big Data erfüllen. Anfangs nutzten Unternehmen ihre bestehenden Technologie-Stacks, um ihre Data Lakes mit denselben Funktionen wie ein Data Warehouse auszustatten und so ihre Data Warehouses so anzupassen, dass sie große Mengen an semistrukturierten Daten verarbeiten. Alternativ entschieden sie sich dafür, Daten in beiden zu speichern. 

Letztendlich führten diese Ansätze zu hohen Kosten, unzufriedenen Nutzern und Datenredundanz im gesamten Unternehmen. Das Data Lakehouse ist eine neue hybride Datenarchitektur, die die Vorteile von Data Warehouses und Data Lakes nutzt und die Schwächen beider Systeme beseitigen soll. 

Google Cloud bietet eine cloudnative, hochskalierbare und sichere Data Lakehouse-Lösung, die auf unseren kostengünstigen Speichern, serverlosen Computing-Engines und leistungsstarken Datenmanagement-Angeboten basiert. Hier erfahren Sie, wie Sie ein Open Data Lakehouse in Google Cloud erstellen.

Definition von Data Lakehouse

Ein Data Lakehouse ist eine Datenarchitektur, die einen Data Lake und ein Data Warehouse miteinander verbindet. Data Lakehouses ermöglichen Machine Learning, Business Intelligence und Predictive Analytics. So können Unternehmen kostengünstigen, flexiblen Speicher für alle Arten von Daten – strukturierte, unstrukturierte und semistrukturierte Daten – nutzen und gleichzeitig Datenstrukturen und Funktionen zur Datenverwaltung verwenden.

Was ist ein Lakehouse?

Ein Data Lakehouse ist eine moderne Datenarchitektur, die eine einzige Plattform schafft, indem sie die wichtigsten Vorteile von Data Lakes (große Repositories von Rohdaten in ihrer ursprünglichen Form) und Data Warehouses (organisierte Sammlungen von strukturierten Daten) kombiniert. Mit Data Lakehouses können Unternehmen kostengünstige Speicher für große Mengen an Rohdaten nutzen und gleichzeitig Funktionen für Struktur und Datenverwaltung nutzen. 

Früher mussten Data Warehouses und Data Lakes als separate, isolierte Architekturen implementiert werden, um die zugrunde liegenden Systeme nicht zu überlasten und keine Ressourcenkonflikte zu verursachen. Unternehmen nutzten Data Warehouses, um strukturierte Daten für Business Intelligence (BI) und Berichtswesen zu speichern, und Data Lakes, um unstrukturierte und semistrukturierte Daten für künstliche Intelligenz (KI) und Machine Learning (ML) zu speichern. Bei diesem Ansatz mussten die Daten jedoch regelmäßig zwischen den beiden Systemen hin- und hergeschoben werden, wenn Daten aus beiden Architekturen gemeinsam verarbeitet werden sollten. Das führte zu Komplexität, höheren Kosten und Problemen mit der Aktualität, Duplizierung und Konsistenz der Daten. 

Data Lakehouses zielen darauf ab, solche Silos aufzubrechen und die Flexibilität, Skalierbarkeit und Agilität zu bieten, die erforderlich sind, damit Ihre Daten einen Mehrwert für Ihr Unternehmen schaffen und nicht zu Ineffizienzen führen.

Data Lakehouse im Vergleich zu Data Lake und Data Warehouse

Der Begriff „Data Lakehouse“ vereint zwei Arten von Datenspeichern: das Data Warehouse und den Data Lake. Was sind die Unterschiede zwischen Data Lakehouse, Data Lake und Data Warehouse? 

Data Warehouses

Data Warehouses bieten Geschäftsnutzern, die Berichte und Statistiken für die Entscheidungsfindung erstellen müssen, schnellen Zugriff auf Daten und SQL-Kompatibilität. Alle Daten müssen die ETL-Phase (Extrahieren, Transformieren, Laden) durchlaufen. Das bedeutet, dass sie vor dem Laden je nach Anwendungsfall in einem bestimmten Format oder Schema optimiert werden, um leistungsstarke Abfragen und Datenintegrität zu unterstützen. Dieser Ansatz schränkt jedoch die Flexibilität des Zugriffs auf die Daten ein und verursacht zusätzliche Kosten, wenn Daten für eine zukünftige Verwendung verschoben werden müssen.

Data Lakes

In Data Lakes werden große Mengen unstrukturierter und strukturierter Daten in ihrem nativen Format gespeichert. Im Gegensatz zu Data Warehouses werden Daten während der Analyse verarbeitet, bereinigt und transformiert, um höhere Ladegeschwindigkeiten zu ermöglichen. Dadurch sind sie ideal für die Verarbeitung von Big Data, maschinelles Lernen oder prädiktive Analysen. Sie erfordern jedoch Fachwissen in der Datenwissenschaft, wodurch die Gruppe von Personen eingeschränkt wird, die die Daten verwenden können, und wenn sie nicht ordnungsgemäß gewartet werden, kann sich die Datenqualität mit der Zeit verschlechtern. Data Lakes erschweren außerdem das Abrufen von Echtzeitabfragen, wenn die Daten nicht verarbeitet sind. Sie müssen also möglicherweise bereinigt, verarbeitet, aufgenommen und integriert werden, bevor sie verwendet werden können.

Data Lakehouse

Ein Data Lakehouse vereint diese beiden Ansätze in einer einzigen Struktur, über die Sie auf Daten zugreifen und sie für viele verschiedene Zwecke nutzen können, von Business Intelligence über Data Science bis hin zu KI und Machine Learning. Mit einem Data Lakehouse werden also alle unstrukturierten, strukturierten und semistrukturierten Daten Ihres Unternehmens erfasst und in einem kostengünstigen Speicher abgelegt. Gleichzeitig können alle Nutzerinnen und Nutzer die Daten nach ihren Bedürfnissen organisieren und analysieren. 

Data Lakehouse-Features

Zu den wichtigsten Data-Lakehouse-Funktionen gehören: 

  • Ein einziger kostengünstiger Datenspeicher für alle Datentypen (strukturiert, unstrukturiert und semistrukturiert) 
  • Datenverwaltungsfunktionen zum Anwenden von Schemas, Durchsetzen von Daten-Governance, Anbieten von ETL-Prozessen und Datenbereinigung
  • Transaktionsunterstützung für ACID-Eigenschaften (Atomicity, Consistency, Isolation, Durability – Atomarität, Konsistenz, Isolation, Langlebigkeit) zur Gewährleistung der Datenkonsistenz, wenn mehrere Nutzer gleichzeitig Daten lesen und schreiben.
  • Standardisierte Speicherformate, die in verschiedenen Softwareprogrammen verwendet werden können
  • End-to-End-Streaming zur Unterstützung der Datenaufnahme in Echtzeit und der Generierung von Statistiken 
  • Getrennte Computing- und Speicherressourcen für die Skalierbarkeit unterschiedlicher Arbeitslasten
  • Interoperabilität mit Open-Source-Engines wie Apache Spark und SQL-basierten Analyseplattformen wie BigQuery
  • End-to-End-Governance und Metadatenverwaltung für alle Daten
  • Direkter Zugriff von BI-Anwendungen auf die Quelldaten im Lakehouse zur Verringerung der Datenduplizierung 

Wie funktioniert ein Data Lakehouse?

Wenn es darum geht, dass ein Data Lakehouse funktioniert, ist es wichtig zu überlegen, was damit erreicht werden soll. Data Lakehouses zielen darauf ab, unterschiedliche Datenquellen zu zentralisieren und Engineering-Bemühungen zu vereinfachen, damit jeder in Ihrem Unternehmen Daten nutzen kann.

Ein Data Lakehouse nutzt den gleichen kostengünstigen Cloud-Objektspeicher wie Data Lakes, um On-Demand-Speicher für eine einfache Bereitstellung und Skalierung bereitzustellen. Wie ein Data Lake können große Mengen aller Datentypen in Rohform erfasst und gespeichert werden. Das Lakehouse integriert Metadatenebenen über diesen Speicher, um Warehouse-ähnliche Funktionen wie strukturierte Schemas, Unterstützung für ACID-Transaktionen, Data Governance und andere Datenverwaltungs- und Optimierungsfunktionen bereitzustellen.

Vorteile eines Data Lakehouse

Vereinfachte Architektur

Ein Data Lakehouse beseitigt die Silos zweier separater Plattformen, sodass Sie sich nur auf die Verwaltung und Pflege eines einzigen Daten-Repositorys konzentrieren müssen. Tools können auch direkt mit Quelldaten verbunden werden, sodass Sie keine Daten für die Verwendung in einem Data Warehouse extrahieren oder vorbereiten müssen.

Bessere Datenqualität 

Sie können Schemas für strukturierte Daten und die Datenintegrität in Data-Lakehouse-Architekturen erzwingen und so für Konsistenz sorgen. Außerdem verkürzen Lakehouses die Bereitstellung neuer Daten und sorgen so für aktuellere Daten.

Geringere Kosten

Speichern Sie riesige Datenmengen in einem kostengünstigen Speicher und eliminieren Sie die Wartung eines Data Warehouse und eines Data Lake. Data Lakehouses tragen außerdem dazu bei, die Kosten für ETL-Prozesse und die Deduplizierung zu senken.

Mehr Zuverlässigkeit:

Data Lakehouses reduzieren ETL-Datenübertragungen zwischen mehreren Systemen und verringern so die Wahrscheinlichkeit von Qualitäts- oder technischen Problemen, die bei der Datenverschiebung auftreten können.

Verbesserte Data Governance

Daten und Ressourcen werden mit Data Lakehouses an einem Ort konsolidiert, was das Implementieren, Testen und Bereitstellen von Governance- und Sicherheitskontrollen vereinfacht.

Reduzierte Datenduplizierung

Je mehr Kopien von Daten in unterschiedlichen Systemen vorhanden sind, desto wahrscheinlicher ist es, dass sie inkonsistent und weniger vertrauenswürdig sind. Mit Data Lakehouses können Sie eine einzige Datenquelle erreichen, die für das gesamte Unternehmen freigegeben werden kann, um Entscheidungen zu treffen und Inkonsistenzen und zusätzliche Speicherkosten durch Datenduplizierung zu vermeiden.

Unterschiedliche Arbeitslasten

Sie können mehrere Tools direkt mit dem Lakehouse verbinden, um Arbeitslasten für Analysen, SQL, maschinelles Lernen und Data Science aus demselben Repository zu unterstützen.

Hohe Skalierbarkeit

Die kostengünstige Cloud-Objektspeicherung von Data Lakehouses ermöglicht es Ihnen, Rechenleistung vom Speicher zu entkoppeln, um eine nahezu unbegrenzte und sofortige Skalierbarkeit zu ermöglichen. Sie können Rechenleistung und Speicher separat entsprechend Ihren Geschäftsanforderungen skalieren.

Vereinfachte Architektur

Ein Data Lakehouse beseitigt die Silos zweier separater Plattformen, sodass Sie sich nur auf die Verwaltung und Pflege eines einzigen Daten-Repositorys konzentrieren müssen. Tools können auch direkt mit Quelldaten verbunden werden, sodass Sie keine Daten für die Verwendung in einem Data Warehouse extrahieren oder vorbereiten müssen.

Bessere Datenqualität 

Sie können Schemas für strukturierte Daten und die Datenintegrität in Data-Lakehouse-Architekturen erzwingen und so für Konsistenz sorgen. Außerdem verkürzen Lakehouses die Bereitstellung neuer Daten und sorgen so für aktuellere Daten.

Geringere Kosten

Speichern Sie riesige Datenmengen in einem kostengünstigen Speicher und eliminieren Sie die Wartung eines Data Warehouse und eines Data Lake. Data Lakehouses tragen außerdem dazu bei, die Kosten für ETL-Prozesse und die Deduplizierung zu senken.

Mehr Zuverlässigkeit:

Data Lakehouses reduzieren ETL-Datenübertragungen zwischen mehreren Systemen und verringern so die Wahrscheinlichkeit von Qualitäts- oder technischen Problemen, die bei der Datenverschiebung auftreten können.

Verbesserte Data Governance

Daten und Ressourcen werden mit Data Lakehouses an einem Ort konsolidiert, was das Implementieren, Testen und Bereitstellen von Governance- und Sicherheitskontrollen vereinfacht.

Reduzierte Datenduplizierung

Je mehr Kopien von Daten in unterschiedlichen Systemen vorhanden sind, desto wahrscheinlicher ist es, dass sie inkonsistent und weniger vertrauenswürdig sind. Mit Data Lakehouses können Sie eine einzige Datenquelle erreichen, die für das gesamte Unternehmen freigegeben werden kann, um Entscheidungen zu treffen und Inkonsistenzen und zusätzliche Speicherkosten durch Datenduplizierung zu vermeiden.

Unterschiedliche Arbeitslasten

Sie können mehrere Tools direkt mit dem Lakehouse verbinden, um Arbeitslasten für Analysen, SQL, maschinelles Lernen und Data Science aus demselben Repository zu unterstützen.

Hohe Skalierbarkeit

Die kostengünstige Cloud-Objektspeicherung von Data Lakehouses ermöglicht es Ihnen, Rechenleistung vom Speicher zu entkoppeln, um eine nahezu unbegrenzte und sofortige Skalierbarkeit zu ermöglichen. Sie können Rechenleistung und Speicher separat entsprechend Ihren Geschäftsanforderungen skalieren.

Herausforderungen bei der Nutzung eines Data Lakehouse

Das Konzept des Data Lakehouse hat sich im Laufe der Zeit weiterentwickelt, da Unternehmen die ultimative Flexibilität bei der Datenspeicherung sowie mehr Auswahl und Interoperabilität bei der Datenverarbeitung und bei Analyse-Engines wünschen. Außerdem ist es schwierig, Data Lakehouses von Grund auf aufzubauen. Weiter müssen sie jetzt eng mit KI-Funktionen verbunden sein. In den meisten Fällen müssen Sie sich entweder für eine vorkonfigurierte Data-Lakehouse-Lösung entscheiden oder eine Plattform wie Google Cloud verwenden, die alle erforderlichen Komponenten für die Unterstützung einer offenen Lakehouse-Architektur bietet.

Ebenen der Data-Lakehouse-Architektur

Eine Data-Lakehouse-Architektur besteht aus den folgenden Ebenen: 

  • Speicherebene: Die Speicherschicht ist die Data-Lake-Ebene für alle Rohdaten, in der Regel ein kostengünstiger Objektspeicher für alle unstrukturierten, strukturierten und semistrukturierten Datasets. Es ist von den Rechenressourcen entkoppelt, sodass die Rechenleistung unabhängig skaliert werden kann.
  • Staging-Ebene: Die Staging-Ebene ist die Metadatenebene, die sich über Ihrer Data-Lake-Ebene befindet. Er bietet einen detaillierten Katalog über alle Datenobjekte im Speicher, sodass Sie Datenverwaltungsfunktionen wie Schemaerzwingung, ACID-Eigenschaften, Indexierung, Caching und Zugriffssteuerung anwenden können.
  • Semantische Ebene : Die semantische Ebene, die Lakehouse-Ebene, stellt alle Ihre Daten zur Verwendung bereit. Nutzer können Client-Apps und Analysetools verwenden, um auf Daten für Tests und Business Intelligence-Präsentationen zuzugreifen und diese zu nutzen.

Apache Iceberg verändert Data Lakehouses

Apache Iceberg revolutioniert Lakehouse-Architekturen, da es ein offenes Tabellenformat bietet, das datenlagerähnliche Funktionen wie ACID-Transaktionen, Schema-Weiterentwicklung und Zeitreisen direkt in im Objektspeicher gespeicherten Data Lakes ermöglicht. So können Unternehmen hochskalierbare, leistungsstarke und flexible Datenplattformen erstellen, die plattformübergreifend mit verschiedenen Analyse-Engines interoperabel sind und eine Abhängigkeit von einem Anbieter vermeiden. 

Google Cloud bietet Unternehmen ein offenes, verwaltetes und leistungsstarkes Data Lakehouse, das auf BigLake basiert. Diese einheitliche Speicher-Engine bietet eine native Implementierung für Apache Iceberg in Cloud Storage, wo Sie Ihre Open-Source-Engines direkt für Iceberg-Daten nutzen können. BigLake Metastore vereinfacht die Datenverwaltung und ist in den Dataplex Universal Catalog eingebunden, um eine einheitliche Governance zu ermöglichen. Sie können eine detaillierte Zugriffssteuerung anwenden und die Abfrageleistung für verteilte Daten beschleunigen. 

Dieser Ansatz wird mit der Speicher- und Rechenleistung von BigQuery kombiniert, die das Herzstück des verwalteten, leistungsstarken Data Lakehouse bildet, das mit Iceberg erweiterte Analysen, Streaming und KI/ML-Arbeitslasten unterstützt. BigQuery ist nicht nur in die Google Cloud-Umgebung eingebunden, sondern ermöglicht es auch, Partner- und Open-Source-Technologien zu verwenden, um die besten Elemente von Lake und Warehouse in einem einzigen System zu vereinen.

Meistern Sie Ihre geschäftlichen Herausforderungen mit Google Cloud

Neukunden erhalten ein Guthaben im Wert von 300 $ für Google Cloud.
Sprechen Sie mit einem Google Cloud-Vertriebsexperten, um Ihre besonderen Herausforderungen im Detail zu besprechen.
Google Cloud