In der heutigen datengestützten Landschaft suchen Unternehmen ständig nach effizienteren Möglichkeiten, riesige Mengen an Informationen zu verwalten und zu analysieren. Der ELT-Prozess (Extrahieren, Laden, Transformieren) ist ein moderner Ansatz für die Datenintegration, der sich besonders gut für Cloud-Umgebungen eignet. ELT ist ein wichtiges Konzept für alle, die sich mit Datenarchitektur, Data Engineering oder Analysen beschäftigen, da es deutliche Vorteile in Bezug auf Geschwindigkeit, Flexibilität und Skalierbarkeit bei der Verarbeitung verschiedener Datensätze bieten kann. Dieser Ansatz verschiebt den Zeitpunkt und den Ort der Datentransformation und eröffnet neue Möglichkeiten für die Datennutzung.
ELT steht für „Extract, Load, Transform“ (Extrahieren, Laden, Transformieren). Es ist ein Datenpipeline-Modell, bei dem Daten zuerst aus verschiedenen Quellsystemen extrahiert werden. Anstatt in einem separaten Staging-Bereich transformiert zu werden, werden die Rohdaten direkt in einen Zieldatenspeicher wie einen Data Lake oder ein Cloud-Data-Warehouse geladen. Die Transformationen werden erst angewendet, nachdem die Daten in das Zielsystem geladen wurden.
Diese Reihenfolge unterscheidet ELT von seinem Vorgänger ETL (Extrahieren, Transformieren, Laden) und ist ein wichtiger Grund für seine zunehmende Verbreitung in cloudnativen Architekturen.
Der ELT-Prozessablauf nutzt die Leistungsfähigkeit und Skalierbarkeit moderner Datenspeicher- und Verarbeitungsplattformen. Sehen wir uns die einzelnen Komponenten genauer an:
Der ELT-Prozess bietet Flexibilität, da Transformationen nicht vor dem Laden festgelegt werden. Data Scientists können beispielsweise auf die Rohdaten zugreifen, um unerwartete Muster zu erkennen oder Ad-hoc-Analysen durchzuführen, während Business-Intelligence-Teams kuratierte, transformierte Datasets für Berichte erstellen können.
Der ELT-Ansatz bietet mehrere potenzielle Vorteile, insbesondere in Umgebungen, in denen große Datenmengen und unterschiedliche Datentypen verarbeitet werden:
ELT bietet zwar mehrere Vorteile, kann aber auch bestimmte Aspekte mit sich bringen, die Unternehmen berücksichtigen sollten:
Wenn Unternehmen diese Herausforderungen proaktiv angehen, können sie die Vorteile des ELT-Paradigmas voll ausschöpfen.
Es ist wichtig, den Unterschied zwischen ELT und dem traditionelleren ETL-Prozess (Extrahieren, Transformieren, Laden) zu verstehen, um die richtige Datenintegrationsstrategie zu wählen. Der Hauptunterschied besteht darin, wann und wo der Transformationsschritt erfolgt.
Feature | ELT (Extrahieren, Laden, Transformieren) | ETL (Extrahieren, Transformieren, Laden) |
Reihenfolge von Vorgängen | Extrahieren, dann laden, dann transformieren | Extrahieren, dann transformieren, dann laden |
Transformationsort | Im Zieldatenspeicher (Data Warehouse/Lake) | In einem separaten Staging-Bereich oder einer ETL-Tool-Umgebung |
In das Ziel geladene Daten | Rohe, unveränderte Daten | Bereinigte, strukturierte und transformierte Daten |
Rechenleistung | Nutzt die Leistung des Zieldatenspeichers | Verwendet eine dedizierte ETL-Engine oder einen Staging-Server |
Geschwindigkeit der Datenaufnahme | In der Regel schnelleres anfängliches Laden von Daten | Kann aufgrund der vorausgehenden Transformationsverarbeitung langsamer sein |
Flexibilität für neue Anwendungsfälle | Hoch, da Rohdaten für die erneute Transformation verfügbar sind | Geringer, da Transformationen vordefiniert sind |
Schemaverarbeitung | Gut geeignet für Schema-on-Read | Oft Schema-on-Write |
Geeigneter Datentyp | Hervorragend für strukturierte, semistrukturierte und unstrukturierte Daten | Am besten für strukturierte und einige semistrukturierte Daten geeignet |
Ressourcennutzung | Optimiert die Nutzung skalierbarer Cloud Data Warehouses | Für Transformationen ist möglicherweise eine separate Infrastruktur erforderlich |
Feature
ELT (Extrahieren, Laden, Transformieren)
ETL (Extrahieren, Transformieren, Laden)
Reihenfolge von Vorgängen
Extrahieren, dann laden, dann transformieren
Extrahieren, dann transformieren, dann laden
Transformationsort
Im Zieldatenspeicher (Data Warehouse/Lake)
In einem separaten Staging-Bereich oder einer ETL-Tool-Umgebung
In das Ziel geladene Daten
Rohe, unveränderte Daten
Bereinigte, strukturierte und transformierte Daten
Rechenleistung
Nutzt die Leistung des Zieldatenspeichers
Verwendet eine dedizierte ETL-Engine oder einen Staging-Server
Geschwindigkeit der Datenaufnahme
In der Regel schnelleres anfängliches Laden von Daten
Kann aufgrund der vorausgehenden Transformationsverarbeitung langsamer sein
Flexibilität für neue Anwendungsfälle
Hoch, da Rohdaten für die erneute Transformation verfügbar sind
Geringer, da Transformationen vordefiniert sind
Schemaverarbeitung
Gut geeignet für Schema-on-Read
Oft Schema-on-Write
Geeigneter Datentyp
Hervorragend für strukturierte, semistrukturierte und unstrukturierte Daten
Am besten für strukturierte und einige semistrukturierte Daten geeignet
Ressourcennutzung
Optimiert die Nutzung skalierbarer Cloud Data Warehouses
Für Transformationen ist möglicherweise eine separate Infrastruktur erforderlich
ELT ist das von Google Cloud empfohlene Muster für die Datenintegration. Bei ELT werden Daten aus Quellsystemen extrahiert, in BigQuery geladen und dann in das gewünschte Format für die Analyse transformiert. Im Gegensatz zu ETL (Extrahieren, Transformieren, Laden), bei dem die Daten vor dem Laden in ein Data Warehouse transformiert werden, können Sie mit dem ELT-Ansatz die volle Leistungsfähigkeit von BigQuery nutzen, um Datentransformationen durchzuführen, und jeder SQL-Nutzer kann effektiv Datenintegrationspipelines entwickeln.
Die Wahl zwischen ELT und ETL hängt oft von spezifischen Anwendungsfällen, der vorhandenen Infrastruktur, den Datenmengen und den analytischen Anforderungen des Unternehmens ab. In vielen modernen Datenarchitekturen wird auch ein hybrider Ansatz verwendet, bei dem ELT und ETL für verschiedene Teile der Pipeline eingesetzt werden.
Das ELT-Muster ist in einer Vielzahl moderner Datenszenarien besonders effektiv:
Cloud Data Warehousing
ELT eignet sich hervorragend für Cloud-Datenplattformen wie BigQuery von Google Cloud, die eine enorme Rechenleistung und Skalierbarkeit bieten, um Transformationen an großen Datasets effizient zu verarbeiten.
Big-Data-Analysen
Bei riesigen Datenmengen, hoher Geschwindigkeit und großer Vielfalt ermöglicht ELT eine schnelle Datenaufnahme in einen Data Lake oder einen skalierbaren Speicher. Anschließend können mit Frameworks für die verteilte Verarbeitung nach Bedarf Transformationen angewendet werden.
Data-Lake-Implementierung
Data Lakes sind darauf ausgelegt, große Mengen an Rohdaten im nativen Format zu speichern. ELT-Prozesse laden diese Rohdaten, und verschiedene Analyse- und Verarbeitungs-Engines können sie dann transformieren und nutzen.
Datenverarbeitung in Echtzeit oder nahezu in Echtzeit
Bei Anwendungsfällen, die einen schnellen Zugriff auf aktuelle Daten erfordern, kann ELT die Ladephase beschleunigen. Transformationen für bestimmte Dashboards oder Anwendungen, die nahezu in Echtzeit aktualisiert werden, können dann für Teilmengen dieser Daten durchgeführt werden.
Explorative Datenanalyse und Data Science
Data Scientists bevorzugen oft den Zugriff auf unverarbeitete Rohdaten, um Feature Engineering durchzuführen, Machine-Learning-Modelle zu erstellen und Erkenntnisse zu gewinnen, ohne durch vordefinierte Transformationen eingeschränkt zu werden. ELT macht diese Rohdaten sofort verfügbar.
Zusammenführung verschiedener Datenquellen
Bei der Integration von Daten aus zahlreichen unterschiedlichen Systemen mit variierenden Strukturen vereinfacht ELT die erste Datenaufnahme, indem zuerst alles an einem zentralen Ort geladen und dann durch Transformationen harmonisiert wird.
Google Cloud bietet eine umfassende Suite von Diensten, mit denen sich ELT-Architekturen optimieren lassen. So können Unternehmen robuste und skalierbare Datenpipelines erstellen. Der Schwerpunkt liegt auf der Nutzung der Leistungsfähigkeit von Diensten wie BigQuery für In-Database-Transformationen.
So werden Google Cloud-Dienste in der Regel in ELT-Mustern eingesetzt:
Die Infrastruktur von Google Cloud unterstützt die Grundsätze von ELT durch skalierbaren Speicher für Rohdaten, schnelle Ladefunktionen und eine leistungsstarke Engine in BigQuery, mit der Transformationen effizient durchgeführt werden können. So können Data Engineers Pipelines erstellen, in denen Daten schnell bereitgestellt und dann basierend auf spezifischen analytischen Anforderungen verfeinert werden – und das alles in einer verwalteten, serverlosen Umgebung.
Profitieren Sie von einem Guthaben in Höhe von 300 $ und mehr als 20 immer kostenlose Produkten, um Google Cloud kennenzulernen.