In der heutigen datengetriebenen Welt suchen Unternehmen ständig nach effizienteren Möglichkeiten, riesige Mengen an Informationen zu verwalten und zu analysieren. Der ELT-Prozess (Extract, Load, Transform) ist ein moderner Ansatz für die Datenintegration, der sich besonders gut für Cloud-Umgebungen eignet. ELT ist für alle, die mit Datenarchitektur, Data Engineering oder Analysen zu tun haben, von entscheidender Bedeutung, da es bei der Verarbeitung unterschiedlicher Datasets deutliche Vorteile in puncto Geschwindigkeit, Flexibilität und Skalierbarkeit bietet. Dieser Ansatz verschiebt den Zeitpunkt und Ort der Datentransformation und eröffnet neue Möglichkeiten für die Datennutzung.
ELT steht für „Extract, Load, Transform“. Es ist ein Datenpipelinemodell, bei dem Daten zuerst aus verschiedenen Quellsystemen extrahiert werden. Anstatt in einem separaten Staging-Bereich transformiert zu werden, werden die Rohdaten direkt in einen Zieldatenspeicher wie einen Data Lake oder ein Cloud-Data-Warehouse geladen. Erst nachdem die Daten in das Zielsystem geladen wurden, werden die Transformationen angewendet.
Diese Abfolge unterscheidet ELT von seinem Vorgänger ETL (Extrahieren, Transformieren, Laden) und ist ein wichtiger Grund für seine wachsende Akzeptanz in cloudnativen Architekturen.
Der ELT-Prozessablauf nutzt die Leistungsfähigkeit und Skalierbarkeit moderner Plattformen für die Datenspeicherung und -verarbeitung. Sehen wir uns die einzelnen Komponenten an:
Der ELT-Prozess bietet Flexibilität, da die Transformationen nicht vor dem Laden festgelegt sind. Data Scientists können beispielsweise auf die Rohdaten zugreifen, um unvorhergesehene Muster zu erkennen oder Ad-hoc-Analysen durchzuführen, während Business Intelligence-Teams kuratierte, transformierte Datasets für Berichte erstellen können.
Der ELT-Ansatz bietet mehrere potenzielle Vorteile, insbesondere in Umgebungen mit großen Datenmengen und unterschiedlichen Datentypen:
ELT bietet zwar mehrere Vorteile, birgt aber auch gewisse Herausforderungen, die Organisationen berücksichtigen sollten:
Wenn Unternehmen diese Herausforderungen proaktiv angehen, können sie die Vorteile des ELT-Paradigmas voll ausschöpfen.
Die Unterscheidung zwischen ELT und dem eher traditionellen ETL-Prozess (Extract, Transform, Load) ist wichtig, um die richtige Strategie für die Datenintegration zu wählen. Der Hauptunterschied liegt darin, wann und wo die Transformation stattfindet.
Feature | ELT (Extrahieren, Laden, Transformieren) | ETL (Extrahieren, Transformieren, Laden) |
Reihenfolge von Vorgängen | Extrahieren, Laden, Transformieren | Extrahieren, Transformieren, Laden |
Transformationsstandort | Innerhalb des Zieldatenspeichers (Data Warehouse/Lake) | In einem separaten Staging-Bereich oder einer ETL-Tool-Umgebung |
Daten in Ziel geladen | Rohe, nicht transformierte Daten | Bereinigte, strukturierte und transformierte Daten |
Rechenleistung | Nutzt die Leistungsfähigkeit des Zieldatenspeichers | Auf dedizierte ETL-Engine oder Staging-Server angewiesen |
Datenaufnahmegeschwindigkeit | Normalerweise schnelleres Laden von Daten | Kann aufgrund der Vorverarbeitung langsamer sein |
Flexibilität für neue Verwendungszwecke | Hoch, da Rohdaten für die erneute Transformation verfügbar sind | Niedriger, da die Transformationen vordefiniert sind |
Schemabehandlung | Gut geeignet für Schema-on-Read | Häufig auf Schema-on-Write angewiesen |
Geeigneter Datentyp | Hervorragend für strukturierte, halbstrukturierte und unstrukturierte Daten | Am besten für strukturierte und teilweise halbstrukturierte Daten |
Ressourcennutzung | Optimiert die Nutzung skalierbarer Cloud-Data-Warehouses | Für Transformationen ist möglicherweise eine separate Infrastruktur erforderlich |
Feature
ELT (Extrahieren, Laden, Transformieren)
ETL (Extrahieren, Transformieren, Laden)
Reihenfolge von Vorgängen
Extrahieren, Laden, Transformieren
Extrahieren, Transformieren, Laden
Transformationsstandort
Innerhalb des Zieldatenspeichers (Data Warehouse/Lake)
In einem separaten Staging-Bereich oder einer ETL-Tool-Umgebung
Daten in Ziel geladen
Rohe, nicht transformierte Daten
Bereinigte, strukturierte und transformierte Daten
Rechenleistung
Nutzt die Leistungsfähigkeit des Zieldatenspeichers
Auf dedizierte ETL-Engine oder Staging-Server angewiesen
Datenaufnahmegeschwindigkeit
Normalerweise schnelleres Laden von Daten
Kann aufgrund der Vorverarbeitung langsamer sein
Flexibilität für neue Verwendungszwecke
Hoch, da Rohdaten für die erneute Transformation verfügbar sind
Niedriger, da die Transformationen vordefiniert sind
Schemabehandlung
Gut geeignet für Schema-on-Read
Häufig auf Schema-on-Write angewiesen
Geeigneter Datentyp
Hervorragend für strukturierte, halbstrukturierte und unstrukturierte Daten
Am besten für strukturierte und teilweise halbstrukturierte Daten
Ressourcennutzung
Optimiert die Nutzung skalierbarer Cloud-Data-Warehouses
Für Transformationen ist möglicherweise eine separate Infrastruktur erforderlich
ELT ist das von Google Cloud empfohlene Muster für die Datenintegration. Bei ELT werden Daten aus Quellsystemen extrahiert, in BigQuery geladen und dann in das gewünschte Format für die Analyse umgewandelt. Im Gegensatz zu ETL (Extrahieren, Transformieren, Laden), bei dem die Daten vor dem Laden in ein Data Warehouse transformiert werden, können Sie mit dem ELT-Ansatz die volle Leistungsfähigkeit von BigQuery nutzen, um Datentransformationen durchzuführen, und jeder SQL-Nutzer kann effektiv Datenintegrationspipelines entwickeln.
Die Wahl zwischen ELT und ETL hängt oft von spezifischen Anwendungsfällen, der vorhandenen Infrastruktur, dem Datenvolumen und den Analyseanforderungen des Unternehmens ab. In vielen modernen Datenarchitekturen wird auch ein Hybridansatz verwendet, bei dem sowohl ELT als auch ETL für verschiedene Teile der Pipeline eingesetzt werden.
Das ELT-Muster ist besonders effektiv in einer Vielzahl moderner Datenszenarien:
Cloud Data Warehouse
ELT ist eine natürliche Ergänzung für Cloud-Datenplattformen wie BigQuery von Google Cloud, die eine enorme Verarbeitungsleistung und Skalierbarkeit bieten, um Transformationen in großen Datasets effizient zu bewältigen.
Big-Data-Analysen
Bei großen Datenmengen, hoher Geschwindigkeit und einer Vielzahl von Daten ermöglicht ELT eine schnelle Aufnahme in einen Data Lake oder einen skalierbaren Speicher. Transformationen können dann mithilfe von verteilten Verarbeitungsframeworks angewendet werden.
Data Lake-Implementierung
Data Lakes sind dafür ausgelegt, riesige Mengen an Rohdaten in ihrem nativen Format zu speichern. ELT-Prozesse laden diese Rohdaten, und verschiedene Analyse- und Verarbeitungs-Engines können sie dann transformieren und nutzen.
Datenverarbeitung in Echtzeit oder nahezu in Echtzeit
In Anwendungsfällen, in denen ein schneller Zugriff auf aktuelle Daten erforderlich ist, kann ELT die Ladephase beschleunigen. Anhand von Teilmengen dieser Daten können dann Transformationen für bestimmte Dashboards oder Anwendungen in nahezu Echtzeit durchgeführt werden.
Explorative Datenanalyse und Data Science
Datenwissenschaftler bevorzugen oft den Zugriff auf Rohdaten, um Feature-Entwicklung durchzuführen, ML-Modelle zu erstellen und Erkenntnisse zu gewinnen, ohne durch vordefinierte Transformationen eingeschränkt zu sein. ELT macht diese Rohdaten leicht verfügbar.
Verschiedene Datenquellen konsolidieren
Bei der Einbindung von Daten aus zahlreichen unterschiedlichen Systemen mit unterschiedlichen Strukturen vereinfacht ELT die anfängliche Aufnahme, indem alles zuerst an einen zentralen Ort geladen und dann durch Transformationen harmonisiert wird.
Google Cloud bietet eine umfassende Palette von Diensten, mit denen sich ELT-Architekturen optimieren lassen, sodass Unternehmen robuste und skalierbare Datenpipelines erstellen können. Der Schwerpunkt liegt auf der Nutzung leistungsstarker Dienste wie BigQuery für Transformationen in der Datenbank.
So werden Google Cloud-Dienste in ELT-Mustern typischerweise eingesetzt:
Die Infrastruktur von Google Cloud unterstützt die Grundprinzipien von ELT, indem sie skalierbaren Speicher für Rohdaten, schnelle Ladefunktionen und eine leistungsstarke Engine in BigQuery bietet, um Transformationen effizient durchzuführen. So können Data Engineers Pipelines erstellen, in denen Daten schnell gespeichert und dann auf der Grundlage spezifischer Analyseanforderungen verfeinert werden – und das alles in einer verwalteten, serverlosen Umgebung.
Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“-Produkte kennenzulernen.