Unternehmen auf der ganzen Welt suchen nach Speicherlösungen, um die Anforderungen an Volumen, Latenz, Ausfallsicherheit und Datenzugriff im Zusammenhang mit Big Data zu bewältigen. Anfangs nutzten Unternehmen ihre vorhandenen Technology Stacks, um ihre Data Lakes so zu erreichen, dass sie die gleichen Funktionen wie ein Warehouse bereitstellen konnten, ihre Data Warehouses an die Verarbeitung großer Mengen semistrukturierter Daten anzupassen oder sich dafür entscheiden, Daten in beiden zu belassen.
Letztendlich führten diese Ansätze zu hohen Kosten, unzufriedenen Nutzenden und Duplizierung von Daten im gesamten Unternehmen. Das Data Lakehouse hat sich als neue hybride Datenarchitektur entwickelt, die darauf abzielt, die besten Vorteile von Data Warehouses und Data Lakes zu bieten und gleichzeitig die Schwächen beider Systeme zu beseitigen.
Google Cloud bietet eine cloudnative, hoch skalierbare und sichere Data Lakehouse-Lösung, die auf unserem kostengünstigen Speicher, serverlosen Computing-Engines und leistungsstarken Datenverwaltungsangeboten basiert. Weitere Informationen dazu, wie Sie mit Google Cloud ein offenes Data Lakehouse aufbauen
Ein Data Lakehouse ist eine Datenarchitektur, die einen Data Lake und ein Data Warehouse kombiniert. Data Lakehouses ermöglichen maschinelles Lernen, Business Intelligence und prädiktive Analysen. So können Unternehmen kostengünstigen, flexiblen Speicher für alle Arten von Daten – strukturiert, unstrukturierte und semistrukturierte – nutzen und gleichzeitig Datenstrukturen und Datenverwaltungsfunktionen bereitstellen.
Ein Data Lakehouse ist eine moderne Datenarchitektur, die eine einzelne Plattform schafft, die die wichtigsten Vorteile von Data Lakes (große Repositories mit Rohdaten in ihrer ursprünglichen Form) und Data Warehouses (organisierte Sätze strukturierter Daten) kombiniert. Insbesondere ermöglichen Data Lakehouses Unternehmen, große Mengen an Rohdaten auf kostengünstigen Speicher zu speichern und gleichzeitig Struktur- und Datenverwaltungsfunktionen bereitzustellen.
In der Vergangenheit mussten Data Warehouses und Data Lakes als separate, isolierte Architekturen implementiert werden, um eine Überlastung der zugrunde liegenden Systeme zu vermeiden und Konflikte um dieselben Ressourcen zu verursachen. Unternehmen nutzten Data Warehouses zum Speichern strukturierter Daten für Business Intelligence (BI) und Berichte und Data Lakes zum Speichern unstrukturierter und semistrukturierter Daten für Arbeitslasten des maschinellen Lernens (ML). Dieser Ansatz erforderte jedoch, Daten regelmäßig zwischen den beiden separaten Systemen zu verschieben, wenn Daten aus einer der beiden Architekturen zusammen verarbeitet werden mussten. Dies führte zu Komplexität, höheren Kosten und Problemen in Bezug auf Datenaktualität, Duplizierung und Konsistenz.
Data Lakehouses zielen darauf ab, diese Silos aufzulösen und die Flexibilität, Skalierbarkeit und Agilität zu bieten, die erforderlich sind, um sicherzustellen, dass Ihre Daten einen Mehrwert für Ihr Unternehmen generieren und keine Ineffizienzen bieten.
Der Begriff „Data Lakehouse“ verbindet zwei Arten vorhandener Daten-Repositories: das Data Warehouse und den Data Lake. Was sind also die Unterschiede zwischen einem Data Lakehouse, einem Data Lake und einem Data Warehouse?
Data Warehouses bieten Geschäftsnutzern, die Berichte und Statistiken für die Entscheidungsfindung erstellen müssen, schnellen Zugriff auf Daten und SQL-Kompatibilität. Alle Daten müssen die ETL-Phase (Extrahieren, Transformieren, Laden) durchlaufen. Das bedeutet, dass sie vor dem Laden je nach Anwendungsfall in einem bestimmten Format oder Schema optimiert werden, um leistungsstarke Abfragen und Datenintegrität zu unterstützen. Dieser Ansatz schränkt jedoch die Flexibilität des Zugriffs auf die Daten ein und verursacht zusätzliche Kosten, wenn Daten für eine zukünftige Verwendung verschoben werden müssen.
In Data Lakes werden große Mengen unstrukturierter und strukturierter Daten in ihrem nativen Format gespeichert. Im Gegensatz zu Data Warehouses werden Daten während der Analyse verarbeitet, bereinigt und transformiert, um höhere Ladegeschwindigkeiten zu ermöglichen. Dadurch sind sie ideal für die Verarbeitung von Big Data, maschinelles Lernen oder prädiktive Analysen. Sie erfordern jedoch Fachwissen in der Datenwissenschaft, wodurch die Gruppe von Personen eingeschränkt wird, die die Daten verwenden können, und wenn sie nicht ordnungsgemäß gewartet werden, kann sich die Datenqualität mit der Zeit verschlechtern. Data Lakes erschweren außerdem das Abrufen von Echtzeitabfragen, wenn die Daten nicht verarbeitet sind. Sie müssen also möglicherweise bereinigt, verarbeitet, aufgenommen und integriert werden, bevor sie verwendet werden können.
Ein Data Lakehouse verbindet diese beiden Ansätze, um eine einzige Struktur zu erstellen, mit der Sie auf Daten zugreifen und sie für viele verschiedene Zwecke nutzen können, von BI über Data Science bis hin zu Machine Learning. Mit anderen Worten: Ein Data Lakehouse erfasst alle unstrukturierten, strukturierten und semistrukturierten Daten Ihres Unternehmens und speichert sie kostengünstig. Gleichzeitig bietet es allen Nutzern die Möglichkeit, Daten nach ihren Anforderungen zu organisieren und zu untersuchen.
Zu den wichtigsten Features des Data Lakehouse gehören:
Direkter Zugriff von BI-Anwendungen auf die Quelldaten im Lakehouse, um Datenduplikate zu reduzieren.
Wenn es darum geht, dass ein Data Lakehouse funktioniert, ist es wichtig zu überlegen, was damit erreicht werden soll. Data Lakehouses zielen darauf ab, unterschiedliche Datenquellen zu zentralisieren und Engineering-Bemühungen zu vereinfachen, damit jeder in Ihrem Unternehmen Daten nutzen kann.
Ein Data Lakehouse nutzt den gleichen kostengünstigen Cloud-Objektspeicher wie Data Lakes, um On-Demand-Speicher für eine einfache Bereitstellung und Skalierung bereitzustellen. Wie ein Data Lake können große Mengen aller Datentypen in Rohform erfasst und gespeichert werden. Das Lakehouse integriert Metadatenebenen über diesen Speicher, um Warehouse-ähnliche Funktionen wie strukturierte Schemas, Unterstützung für ACID-Transaktionen, Data Governance und andere Datenverwaltungs- und Optimierungsfunktionen bereitzustellen.
Vereinfachte Architektur Ein Data Lakehouse beseitigt die Silos zweier separater Plattformen, sodass Sie sich nur auf die Verwaltung und Pflege eines einzigen Daten-Repositorys konzentrieren müssen. Tools können auch direkt mit Quelldaten verbunden werden, sodass Sie keine Daten für die Verwendung in einem Data Warehouse extrahieren oder vorbereiten müssen. | Bessere Datenqualität Sie können Schemas für strukturierte Daten und die Datenintegrität in Data-Lakehouse-Architekturen erzwingen und so für Konsistenz sorgen. Außerdem verkürzen Lakehouses die Bereitstellung neuer Daten und sorgen so für aktuellere Daten. | Geringere Kosten Speichern Sie riesige Datenmengen in einem kostengünstigen Speicher und eliminieren Sie die Wartung eines Data Warehouse und eines Data Lake. Data Lakehouses tragen außerdem dazu bei, die Kosten für ETL-Prozesse und die Deduplizierung zu senken. |
Mehr Zuverlässigkeit: Data Lakehouses reduzieren ETL-Datenübertragungen zwischen mehreren Systemen und verringern so die Wahrscheinlichkeit von Qualitäts- oder technischen Problemen, die bei der Datenverschiebung auftreten können. | Verbesserte Data Governance Daten und Ressourcen werden mit Data Lakehouses an einem Ort konsolidiert, was das Implementieren, Testen und Bereitstellen von Governance- und Sicherheitskontrollen vereinfacht. | Reduzierte Datenduplizierung Je mehr Kopien von Daten in unterschiedlichen Systemen vorhanden sind, desto wahrscheinlicher ist es, dass sie inkonsistent und weniger vertrauenswürdig sind. Mit Data Lakehouses können Sie eine einzige Datenquelle erreichen, die für das gesamte Unternehmen freigegeben werden kann, um Entscheidungen zu treffen und Inkonsistenzen und zusätzliche Speicherkosten durch Datenduplizierung zu vermeiden. |
Unterschiedliche Arbeitslasten Sie können mehrere Tools direkt mit dem Lakehouse verbinden, um Arbeitslasten für Analysen, SQL, maschinelles Lernen und Data Science aus demselben Repository zu unterstützen. | Hohe Skalierbarkeit Die kostengünstige Cloud-Objektspeicherung von Data Lakehouses ermöglicht es Ihnen, Rechenleistung vom Speicher zu entkoppeln, um eine nahezu unbegrenzte und sofortige Skalierbarkeit zu ermöglichen. Sie können Rechenleistung und Speicher separat entsprechend Ihren Geschäftsanforderungen skalieren. |
Vereinfachte Architektur
Ein Data Lakehouse beseitigt die Silos zweier separater Plattformen, sodass Sie sich nur auf die Verwaltung und Pflege eines einzigen Daten-Repositorys konzentrieren müssen. Tools können auch direkt mit Quelldaten verbunden werden, sodass Sie keine Daten für die Verwendung in einem Data Warehouse extrahieren oder vorbereiten müssen.
Bessere Datenqualität
Sie können Schemas für strukturierte Daten und die Datenintegrität in Data-Lakehouse-Architekturen erzwingen und so für Konsistenz sorgen. Außerdem verkürzen Lakehouses die Bereitstellung neuer Daten und sorgen so für aktuellere Daten.
Geringere Kosten
Speichern Sie riesige Datenmengen in einem kostengünstigen Speicher und eliminieren Sie die Wartung eines Data Warehouse und eines Data Lake. Data Lakehouses tragen außerdem dazu bei, die Kosten für ETL-Prozesse und die Deduplizierung zu senken.
Mehr Zuverlässigkeit:
Data Lakehouses reduzieren ETL-Datenübertragungen zwischen mehreren Systemen und verringern so die Wahrscheinlichkeit von Qualitäts- oder technischen Problemen, die bei der Datenverschiebung auftreten können.
Verbesserte Data Governance
Daten und Ressourcen werden mit Data Lakehouses an einem Ort konsolidiert, was das Implementieren, Testen und Bereitstellen von Governance- und Sicherheitskontrollen vereinfacht.
Reduzierte Datenduplizierung
Je mehr Kopien von Daten in unterschiedlichen Systemen vorhanden sind, desto wahrscheinlicher ist es, dass sie inkonsistent und weniger vertrauenswürdig sind. Mit Data Lakehouses können Sie eine einzige Datenquelle erreichen, die für das gesamte Unternehmen freigegeben werden kann, um Entscheidungen zu treffen und Inkonsistenzen und zusätzliche Speicherkosten durch Datenduplizierung zu vermeiden.
Unterschiedliche Arbeitslasten
Sie können mehrere Tools direkt mit dem Lakehouse verbinden, um Arbeitslasten für Analysen, SQL, maschinelles Lernen und Data Science aus demselben Repository zu unterstützen.
Hohe Skalierbarkeit
Die kostengünstige Cloud-Objektspeicherung von Data Lakehouses ermöglicht es Ihnen, Rechenleistung vom Speicher zu entkoppeln, um eine nahezu unbegrenzte und sofortige Skalierbarkeit zu ermöglichen. Sie können Rechenleistung und Speicher separat entsprechend Ihren Geschäftsanforderungen skalieren.
Das Konzept eines Data Lakehouse ist noch relativ neu, was bedeutet, dass einige der größten Herausforderungen damit zu tun haben, dass es sich weiterentwickelt, und die ersten Nutzer noch immer Best Practices definieren.
Darüber hinaus sind Data Lakehouses komplex und von Grund auf neu aufgebaut. In den meisten Fällen müssen Sie sich entweder für eine vorkonfigurierte Data-Lakehouse-Lösung entscheiden oder eine Plattform wie Google Cloud verwenden, die alle erforderlichen Komponenten für eine offene Lakehouse-Architektur bietet.
Eine Data-Lakehouse-Architektur besteht aus den folgenden Ebenen:
Es gibt mehrere Data-Lakehouse-Beispiele, darunter die Databricks Lakehouse-Plattform und Amazon Redshift Spectrum. Da Technologien jedoch immer ausgereifter sind und der Einsatz von Data Lakehouses zugenommen hat, hat sich die Implementierung von der Kopplung von Lakehouse-Komponenten mit einem bestimmten Data Lake verlagert.
Der Google Cloud-Ansatz bestand beispielsweise darin, die Kernfunktionen von Data Operations, Data Lakes und Data Warehouses für Unternehmen zu vereinheitlichen. Bei dieser Implementierung stehen die Speicher- und Rechenleistung von BigQuery im Mittelpunkt der Data-Lakehouse-Architektur. Anschließend können Sie mit Dataplex und Analytics Hub einen einheitlichen Governance-Ansatz und andere Warehouse-ähnliche Funktionen anwenden.
BigQuery ist nicht nur in die Google Cloud-Umgebung eingebunden, sondern Sie können auch Partner- und Open-Source-Technologien nutzen, um die besten Lake- und Warehouse-Funktionen in einem einzigen System zu vereinen.
Wir werden diesen Ansatz mit der Veröffentlichung von BigLake weiter ausbauen, das jetzt als Vorabversion verfügbar ist. Dies ist eine einheitliche Speicher-Engine, die den Datenzugriff auf Data Warehouses und Data Lakes vereinfacht. Sie können eine detaillierte Zugriffssteuerung anwenden und die Abfrageleistung für verteilte Daten beschleunigen.