Was ist ELT (Extrahieren, Laden und Transformieren)?

In der heutigen datengetriebenen Welt suchen Unternehmen ständig nach effizienteren Möglichkeiten, riesige Mengen an Informationen zu verwalten und zu analysieren. Der ELT-Prozess (Extract, Load, Transform) ist ein moderner Ansatz für die Datenintegration, der sich besonders gut für Cloud-Umgebungen eignet. ELT ist für alle, die mit Datenarchitektur, Data Engineering oder Analysen zu tun haben, von entscheidender Bedeutung, da es bei der Verarbeitung unterschiedlicher Datasets deutliche Vorteile in puncto Geschwindigkeit, Flexibilität und Skalierbarkeit bietet. Dieser Ansatz verschiebt den Zeitpunkt und Ort der Datentransformation und eröffnet neue Möglichkeiten für die Datennutzung.

Definition von ELT

ELT steht für „Extract, Load, Transform“. Es ist ein Datenpipelinemodell, bei dem Daten zuerst aus verschiedenen Quellsystemen extrahiert werden. Anstatt in einem separaten Staging-Bereich transformiert zu werden, werden die Rohdaten direkt in einen Zieldatenspeicher wie einen Data Lake oder ein Cloud-Data-Warehouse geladen. Erst nachdem die Daten in das Zielsystem geladen wurden, werden die Transformationen angewendet.

Diese Abfolge unterscheidet ELT von seinem Vorgänger ETL (Extrahieren, Transformieren, Laden) und ist ein wichtiger Grund für seine wachsende Akzeptanz in cloudnativen Architekturen.

Wie funktioniert ELT?

Der ELT-Prozessablauf nutzt die Leistungsfähigkeit und Skalierbarkeit moderner Plattformen für die Datenspeicherung und -verarbeitung. Sehen wir uns die einzelnen Komponenten an:

Extrahieren: Bei diesem ersten Schritt werden Rohdaten aus den Originalquellen erhoben. Diese Quellen können sehr unterschiedlich sein, darunter Datenbanken (SQL und NoSQL), Unternehmensanwendungen (wie CRMs und ERPs), SaaS-Plattformen, APIs und Protokolldateien. Der Extraktionsprozess konzentriert sich darauf, die Daten effizient aus diesen Systemen zu extrahieren.
Laden: Im zweiten Schritt werden die extrahierten Rohdaten oft im Originalformat oder mit minimaler Verarbeitung direkt in ein Speichersystem mit hoher Kapazität geladen. Häufige Ziele für diese Rohdaten sind Cloud Data Lakes oder moderne Cloud Data Warehouses, die große Mengen an strukturierten, semistrukturierten und unstrukturierten Daten verarbeiten können.
Transformieren: Dieser letzte Schritt erfolgt, nachdem die Daten sicher im Zielsystem gespeichert sind. Mit der Rechenleistung des Data Warehouse oder Data Lake werden die Rohdaten bereinigt, strukturiert, angereichert und in ein Format umgewandelt, das für Analysen, Berichte und Machine Learning geeignet ist. Transformationen können das Filtern, Zusammenführen, Aggregieren, Standardisieren von Formaten und Ableiten neuer Datenpunkte umfassen.

Der ELT-Prozess bietet Flexibilität, da die Transformationen nicht vor dem Laden festgelegt sind. Data Scientists können beispielsweise auf die Rohdaten zugreifen, um unvorhergesehene Muster zu erkennen oder Ad-hoc-Analysen durchzuführen, während Business Intelligence-Teams kuratierte, transformierte Datasets für Berichte erstellen können.

Vorteile von ELT

Der ELT-Ansatz bietet mehrere potenzielle Vorteile, insbesondere in Umgebungen mit großen Datenmengen und unterschiedlichen Datentypen:

Schnellere Datenaufnahme: Das Laden von Rohdaten in das Zielsystem ist in der Regel schneller als das Warten auf die Transformation in einem Staging-Bereich. Das bedeutet, dass Daten für die erste Exploration oder spezifische Anwendungsfälle viel früher verfügbar sind.
Flexibilität und Agilität: Da die Rohdaten im Zielsystem erhalten bleiben, können Transformationen iterativ entwickelt, geändert oder hinzugefügt werden, wenn sich die Geschäftsanforderungen ändern. Wenn sich die Transformationslogik ändert, müssen Sie die Daten aus den Quellsystemen nicht erneut einlesen. Sie führen die Transformation einfach erneut auf den bereits geladenen Rohdaten aus.
Skalierbarkeit: Moderne Cloud-Data-Warehouses und Data Lakes sind für eine enorme Skalierbarkeit ausgelegt. ELT nutzt diese inhärente Fähigkeit, indem Transformationen mithilfe der robusten Verarbeitungsengines dieser Zielsysteme durchgeführt werden. So können Unternehmen wachsende Datenmengen und komplexe Transformationen effizient bewältigen.
Rohdaten aufbewahren: Die Speicherung von Rohdaten ermöglicht eine umfassendere Aufzeichnung der Verlaufsdaten. Das kann für die Datenprüfung, die erneute Verarbeitung bei Fehlern in früheren Transformationen oder für zukünftige analytische Anforderungen, die noch nicht vorhersehbar sind, von unschätzbarem Wert sein. Datenwissenschaftler profitieren oft von dem Zugriff auf die detailliertesten, nicht transformierten Daten.
Kosteneffizienz für bestimmte Arbeitslasten: Die Nutzung der Rechenleistung eines Cloud-Data-Warehouse für Transformationen kann manchmal kostengünstiger sein als die Aufrechterhaltung einer separaten Infrastruktur oder die Lizenzierung spezialisierter ETL-Tools für Transformationen, insbesondere wenn das Data Warehouse eine optimierte Verarbeitung bietet.
Unterstützung verschiedener Datentypen: ELT eignet sich gut für die Verarbeitung von strukturierten, semistrukturierten (wie JSON oder XML) und unstrukturierten Daten (wie Text oder Bildern). Daten können im nativen Format geladen und bei Bedarf transformiert werden, was in Big-Data-Szenarien ein entscheidender Vorteil sein kann. Dieser „Schema-on-Read“-Ansatz, bei dem die Struktur während der Verarbeitung und nicht vor dem Laden angewendet wird, ist ein Markenzeichen von ELT.

Herausforderungen von ELT

ELT bietet zwar mehrere Vorteile, birgt aber auch gewisse Herausforderungen, die Organisationen berücksichtigen sollten:

Datenverwaltung und ‑sicherheit: Das Laden von Rohdaten, die möglicherweise sensible oder personenbezogene Daten enthalten, in einen Data Lake oder ein Data Warehouse erfordert robuste Datenverwaltungs-, Sicherheits- und Compliance-Maßnahmen. Zugriffssteuerungen, Verschlüsselung und Datenmaskierungstechniken sind entscheidend für den Schutz dieser Daten in der Zielumgebung.
Komplexität der Transformation im Zielsystem: Die Verwaltung komplexer Transformationslogik direkt in einem Data Warehouse (z. B. mit SQL) oder Data Lake kann sich als schwierig erweisen. Er erfordert geschultes Personal, das mit diesen Tools vertraut ist, und einen disziplinierten Ansatz für die Codeverwaltung und -optimierung.
Tools und Orchestrierung:Eine effektive ELT-Implementierung erfordert geeignete Tools für die Orchestrierung der Schritte zum Extrahieren und Laden sowie für die Verwaltung und Ausführung von Transformationen im Zielsystem. Viele Cloud-Plattformen bieten zwar Tools an, aber die Einbindung und Verwaltung des gesamten Workflows muss sorgfältig geplant werden.
Potenzielle „Datensümpfe“: Wenn Rohdaten, die in einen Data Lake geladen werden, nicht ordnungsgemäß katalogisiert, verwaltet und reguliert werden, kann sich der Data Lake in einen „Datensumpf“ verwandeln, in dem Daten schwer zu finden, zu vertrauen oder effektiv zu nutzen sind. Eine starke Datenverwaltungsstrategie ist entscheidend.
Verantwortung für die Datenqualität: Da die Transformationen später im Prozess stattfinden, kann die Sicherstellung der Datenqualität spezielle Schritte nach dem Laden erfordern. Die Überwachung und Validierung von Daten im Zielsystem wird immer wichtiger.

Wenn Unternehmen diese Herausforderungen proaktiv angehen, können sie die Vorteile des ELT-Paradigmas voll ausschöpfen.

ELT vs. ETL

Die Unterscheidung zwischen ELT und dem eher traditionellen ETL-Prozess (Extract, Transform, Load) ist wichtig, um die richtige Strategie für die Datenintegration zu wählen. Der Hauptunterschied liegt darin, wann und wo die Transformation stattfindet.

Feature	ELT (Extrahieren, Laden, Transformieren)	ETL (Extrahieren, Transformieren, Laden)
Reihenfolge von Vorgängen	Extrahieren, Laden, Transformieren	Extrahieren, Transformieren, Laden
Transformationsstandort	Innerhalb des Zieldatenspeichers (Data Warehouse/Lake)	In einem separaten Staging-Bereich oder einer ETL-Tool-Umgebung
Daten in Ziel geladen	Rohe, nicht transformierte Daten	Bereinigte, strukturierte und transformierte Daten
Rechenleistung	Nutzt die Leistungsfähigkeit des Zieldatenspeichers	Auf dedizierte ETL-Engine oder Staging-Server angewiesen
Datenaufnahmegeschwindigkeit	Normalerweise schnelleres Laden von Daten	Kann aufgrund der Vorverarbeitung langsamer sein
Flexibilität für neue Verwendungszwecke	Hoch, da Rohdaten für die erneute Transformation verfügbar sind	Niedriger, da die Transformationen vordefiniert sind
Schemabehandlung	Gut geeignet für Schema-on-Read	Häufig auf Schema-on-Write angewiesen
Geeigneter Datentyp	Hervorragend für strukturierte, halbstrukturierte und unstrukturierte Daten	Am besten für strukturierte und teilweise halbstrukturierte Daten
Ressourcennutzung	Optimiert die Nutzung skalierbarer Cloud-Data-Warehouses	Für Transformationen ist möglicherweise eine separate Infrastruktur erforderlich

Feature

ELT (Extrahieren, Laden, Transformieren)

ETL (Extrahieren, Transformieren, Laden)

Reihenfolge von Vorgängen

Extrahieren, Laden, Transformieren

Extrahieren, Transformieren, Laden

Transformationsstandort

Innerhalb des Zieldatenspeichers (Data Warehouse/Lake)

In einem separaten Staging-Bereich oder einer ETL-Tool-Umgebung

Daten in Ziel geladen

Rohe, nicht transformierte Daten

Bereinigte, strukturierte und transformierte Daten

Rechenleistung

Nutzt die Leistungsfähigkeit des Zieldatenspeichers

Auf dedizierte ETL-Engine oder Staging-Server angewiesen

Datenaufnahmegeschwindigkeit

Normalerweise schnelleres Laden von Daten

Kann aufgrund der Vorverarbeitung langsamer sein

Flexibilität für neue Verwendungszwecke

Hoch, da Rohdaten für die erneute Transformation verfügbar sind

Niedriger, da die Transformationen vordefiniert sind

Schemabehandlung

Gut geeignet für Schema-on-Read

Häufig auf Schema-on-Write angewiesen

Geeigneter Datentyp

Hervorragend für strukturierte, halbstrukturierte und unstrukturierte Daten

Am besten für strukturierte und teilweise halbstrukturierte Daten

Ressourcennutzung

Optimiert die Nutzung skalierbarer Cloud-Data-Warehouses

Für Transformationen ist möglicherweise eine separate Infrastruktur erforderlich

ELT ist das von Google Cloud empfohlene Muster für die Datenintegration. Bei ELT werden Daten aus Quellsystemen extrahiert, in BigQuery geladen und dann in das gewünschte Format für die Analyse umgewandelt. Im Gegensatz zu ETL (Extrahieren, Transformieren, Laden), bei dem die Daten vor dem Laden in ein Data Warehouse transformiert werden, können Sie mit dem ELT-Ansatz die volle Leistungsfähigkeit von BigQuery nutzen, um Datentransformationen durchzuführen, und jeder SQL-Nutzer kann effektiv Datenintegrationspipelines entwickeln.

Die Wahl zwischen ELT und ETL hängt oft von spezifischen Anwendungsfällen, der vorhandenen Infrastruktur, dem Datenvolumen und den Analyseanforderungen des Unternehmens ab. In vielen modernen Datenarchitekturen wird auch ein Hybridansatz verwendet, bei dem sowohl ELT als auch ETL für verschiedene Teile der Pipeline eingesetzt werden.

Anwendungsfälle für ELT

Das ELT-Muster ist besonders effektiv in einer Vielzahl moderner Datenszenarien:

Cloud Data Warehouse

ELT ist eine natürliche Ergänzung für Cloud-Datenplattformen wie BigQuery von Google Cloud, die eine enorme Verarbeitungsleistung und Skalierbarkeit bieten, um Transformationen in großen Datasets effizient zu bewältigen.

Big-Data-Analysen

Bei großen Datenmengen, hoher Geschwindigkeit und einer Vielzahl von Daten ermöglicht ELT eine schnelle Aufnahme in einen Data Lake oder einen skalierbaren Speicher. Transformationen können dann mithilfe von verteilten Verarbeitungsframeworks angewendet werden.

Data Lake-Implementierung

Data Lakes sind dafür ausgelegt, riesige Mengen an Rohdaten in ihrem nativen Format zu speichern. ELT-Prozesse laden diese Rohdaten, und verschiedene Analyse- und Verarbeitungs-Engines können sie dann transformieren und nutzen.

Datenverarbeitung in Echtzeit oder nahezu in Echtzeit

In Anwendungsfällen, in denen ein schneller Zugriff auf aktuelle Daten erforderlich ist, kann ELT die Ladephase beschleunigen. Anhand von Teilmengen dieser Daten können dann Transformationen für bestimmte Dashboards oder Anwendungen in nahezu Echtzeit durchgeführt werden.

Explorative Datenanalyse und Data Science

Datenwissenschaftler bevorzugen oft den Zugriff auf Rohdaten, um Feature-Entwicklung durchzuführen, ML-Modelle zu erstellen und Erkenntnisse zu gewinnen, ohne durch vordefinierte Transformationen eingeschränkt zu sein. ELT macht diese Rohdaten leicht verfügbar.

Verschiedene Datenquellen konsolidieren

Bei der Einbindung von Daten aus zahlreichen unterschiedlichen Systemen mit unterschiedlichen Strukturen vereinfacht ELT die anfängliche Aufnahme, indem alles zuerst an einen zentralen Ort geladen und dann durch Transformationen harmonisiert wird.

Meistern Sie Ihre geschäftlichen Herausforderungen mit Google Cloud

Neukunden erhalten ein Guthaben im Wert von 300 $ für Google Cloud.

So verwendet Google Cloud ELT

Google Cloud bietet eine umfassende Palette von Diensten, mit denen sich ELT-Architekturen optimieren lassen, sodass Unternehmen robuste und skalierbare Datenpipelines erstellen können. Der Schwerpunkt liegt auf der Nutzung leistungsstarker Dienste wie BigQuery für Transformationen in der Datenbank.

So werden Google Cloud-Dienste in ELT-Mustern typischerweise eingesetzt:

Extraktion: Daten können aus zahlreichen Quellen extrahiert werden, z. B. mit Diensten wie Dataflow für die Verarbeitung von Batch- und Streamingdaten, Dataproc für Spark- und Hadoop-Arbeitslasten oder direkt über Konnektoren und APIs in Google Cloud-Dienste. Pub/Sub kann zum Einspeisen von Echtzeit-Streamingdaten verwendet werden.
Laden: Die extrahierten Rohdaten werden üblicherweise in Cloud Storage geladen, das als hochskalierbarer und dauerhafter Data Lake fungiert. Aus Cloud Storage können Daten effizient in BigQuery geladen werden, das serverlose, hoch skalierbare und kostengünstige Multi-Cloud-Data-Warehouse von Google Cloud. Daten können auch direkt in BigQuery gestreamt werden.
Transformation: Hier kommt das „T“ in ELT bei Google Cloud zum Tragen. BigQuery ist für die Durchführung komplexer Transformationen im Petabyte-Maßstab mit Standard-SQL ausgelegt. Die leistungsstarke Verarbeitungs-Engine übernimmt Verknüpfungen, Aggregationen, Fensterfunktionen und andere Transformationen direkt in den darin gespeicherten Daten. Außerdem können Sie benutzerdefinierte Funktionen (User-Defined Functions, UDFs) in JavaScript entwickeln oder BigQuery ML für das datenbankinterne Machine Learning nutzen. Die Rohdaten bleiben oft in Cloud Storage oder in separaten BigQuery-Tabellen, sodass sie flexibel wieder transformiert werden können.

Die Infrastruktur von Google Cloud unterstützt die Grundprinzipien von ELT, indem sie skalierbaren Speicher für Rohdaten, schnelle Ladefunktionen und eine leistungsstarke Engine in BigQuery bietet, um Transformationen effizient durchzuführen. So können Data Engineers Pipelines erstellen, in denen Daten schnell gespeichert und dann auf der Grundlage spezifischer Analyseanforderungen verfeinert werden – und das alles in einer verwalteten, serverlosen Umgebung.