Was ist ELT (Extrahieren, Laden und Transformieren)?

In der heutigen datengestützten Landschaft suchen Unternehmen ständig nach effizienteren Möglichkeiten, riesige Mengen an Informationen zu verwalten und zu analysieren. Der ELT-Prozess (Extrahieren, Laden, Transformieren) ist ein moderner Ansatz für die Datenintegration, der sich besonders gut für Cloud-Umgebungen eignet. ELT ist ein wichtiges Konzept für alle, die sich mit Datenarchitektur, Data Engineering oder Analysen beschäftigen, da es deutliche Vorteile in Bezug auf Geschwindigkeit, Flexibilität und Skalierbarkeit bei der Verarbeitung verschiedener Datensätze bieten kann. Dieser Ansatz verschiebt den Zeitpunkt und den Ort der Datentransformation und eröffnet neue Möglichkeiten für die Datennutzung.

Definition von ELT

ELT steht für „Extract, Load, Transform“ (Extrahieren, Laden, Transformieren). Es ist ein Datenpipeline-Modell, bei dem Daten zuerst aus verschiedenen Quellsystemen extrahiert werden. Anstatt in einem separaten Staging-Bereich transformiert zu werden, werden die Rohdaten direkt in einen Zieldatenspeicher wie einen Data Lake oder ein Cloud-Data-Warehouse geladen. Die Transformationen werden erst angewendet, nachdem die Daten in das Zielsystem geladen wurden.

Diese Reihenfolge unterscheidet ELT von seinem Vorgänger ETL (Extrahieren, Transformieren, Laden) und ist ein wichtiger Grund für seine zunehmende Verbreitung in cloudnativen Architekturen.

Wie funktioniert ELT?

Der ELT-Prozessablauf nutzt die Leistungsfähigkeit und Skalierbarkeit moderner Datenspeicher- und Verarbeitungsplattformen. Sehen wir uns die einzelnen Komponenten genauer an:

  • Extrahieren: Bei diesem ersten Schritt werden Rohdaten aus ihren ursprünglichen Quellen erfasst. Diese Quellen können sehr unterschiedlich sein, darunter Datenbanken (SQL und NoSQL), Unternehmensanwendungen (wie CRMs und ERPs), SaaS-Plattformen, APIs und Protokolldateien. Beim Extraktionsprozess geht es darum, die Daten effizient aus diesen Systemen zu holen.
  • Laden: Im zweiten Schritt werden die extrahierten Rohdaten, oft im Originalformat oder mit minimaler Verarbeitung, direkt in ein Speichersystem mit hoher Kapazität geladen. Häufige Ziele für diese Rohdaten sind Cloud-Data Lakes oder moderne Cloud-Data Warehouses, die große Mengen strukturierter, semistrukturierter und unstrukturierter Daten verarbeiten können.
  • Transformieren: Dieser letzte Schritt erfolgt, nachdem die Daten sicher im Zielsystem gespeichert wurden. Mithilfe der Rechenleistung des Data Warehouse oder Data Lake werden die Rohdaten bereinigt, strukturiert, angereichert und in ein Format umgewandelt, das für Analysen, Berichte und maschinelles Lernen geeignet ist. Transformationen können das Filtern, Verknüpfen, Aggregieren, Standardisieren von Formaten und Ableiten neuer Datenpunkte umfassen.

Der ELT-Prozess bietet Flexibilität, da Transformationen nicht vor dem Laden festgelegt werden. Data Scientists können beispielsweise auf die Rohdaten zugreifen, um unerwartete Muster zu erkennen oder Ad-hoc-Analysen durchzuführen, während Business-Intelligence-Teams kuratierte, transformierte Datasets für Berichte erstellen können.

Vorteile von ELT

Der ELT-Ansatz bietet mehrere potenzielle Vorteile, insbesondere in Umgebungen, in denen große Datenmengen und unterschiedliche Datentypen verarbeitet werden:

  • Schnellere Datenaufnahme: Das Laden von Rohdaten in das Zielsystem ist in der Regel schneller als das Warten auf den Abschluss von Transformationen in einem Stagingbereich. Das bedeutet, dass Daten viel schneller für die erste Erkundung oder bestimmte Anwendungsfälle verfügbar sein können.
  • Flexibilität und Agilität: Da die Rohdaten im Zielsystem erhalten bleiben, können Transformationen iterativ entwickelt, geändert oder hinzugefügt werden, wenn sich die Geschäftsanforderungen ändern. Wenn sich eine Transformationslogik ändert, müssen Sie die Daten aus den Quellsystemen nicht neu aufnehmen. Sie führen die Transformation einfach für die bereits geladenen Rohdaten aus.
  • Skalierbarkeit: Moderne Cloud-Data-Warehouses und Data Lakes sind auf massive Skalierbarkeit ausgelegt. ELT nutzt diese inhärente Fähigkeit, indem es Transformationen mit den robusten Verarbeitungs-Engines dieser Zielsysteme durchführt. So können Unternehmen wachsende Datenmengen und komplexe Transformationen effizient verarbeiten.
  • Rohdaten aufbewahren: Die Speicherung von Rohdaten ermöglicht eine umfassendere Aufzeichnung der Verlaufsdaten. Das kann für die Datenprüfung, die erneute Verarbeitung bei Fehlern in vorherigen Transformationen oder für zukünftige analytische Anforderungen, die noch nicht vorhergesehen werden können, von unschätzbarem Wert sein. Data Scientists profitieren oft vom Zugriff auf die detailliertesten, unveränderten Daten.
  • Kosteneffizienz für bestimmte Arbeitslasten: Die Nutzung der Rechenleistung eines Cloud Data Warehouse für Transformationen kann manchmal kosteneffizienter sein als die Wartung einer separaten Infrastruktur oder die Lizenzierung spezieller ETL-Tools für Transformationen, insbesondere wenn das Data Warehouse eine optimierte Verarbeitung bietet.
  • Unterstützung verschiedener Datentypen: ELT eignet sich gut für den Umgang mit strukturierten, semistrukturierten (wie JSON oder XML) und unstrukturierten Daten (wie Text oder Bilder). Daten können im nativen Format geladen und nach Bedarf transformiert werden, was in Big-Data-Szenarien ein erheblicher Vorteil sein kann. Dieser „Schema-on-Read“-Ansatz, bei dem die Struktur während der Verarbeitung und nicht vor dem Laden angewendet wird, ist ein Kennzeichen von ELT.

Herausforderungen bei ELT

ELT bietet zwar mehrere Vorteile, kann aber auch bestimmte Aspekte mit sich bringen, die Unternehmen berücksichtigen sollten:

  • Data Governance und Sicherheit: Das Laden von Rohdaten, die sensible oder personenidentifizierbare Informationen (PII) enthalten können, in einen Data Lake oder ein Data Warehouse erfordert robuste Maßnahmen zur Data Governance, Sicherheit und Compliance. Zugriffssteuerungen, Verschlüsselung und Datenmaskierungstechniken sind entscheidend, um diese Daten in der Zielumgebung zu schützen.
  • Komplexität der Transformation im Zielsystem: Die Verwaltung komplexer Transformationslogik direkt in einem Data Warehouse (z. B. mit SQL) oder Data Lake kann schwierig werden. Dazu sind Fachkräfte erforderlich, die mit diesen Tools vertraut sind, und ein disziplinierter Ansatz für die Codeverwaltung und -optimierung.
  • Tools und Orchestrierung: Eine effektive ELT-Implementierung erfordert geeignete Tools zur Orchestrierung der Extraktions- und Ladeschritte sowie zur Verwaltung und Ausführung von Transformationen im Zielsystem. Viele Cloud-Plattformen bieten zwar Tools, aber deren Integration und die Verwaltung des gesamten Workflows erfordert eine sorgfältige Planung.
  • Potenzial für „Datensümpfe“: Wenn in einen Data Lake geladene Rohdaten nicht ordnungsgemäß katalogisiert, verwaltet und geregelt werden, kann der Data Lake zu einem „Datensumpf“ werden, in dem Daten schwer zu finden, kaum vertrauenswürdig oder wenig effektiv zu nutzen sind. Eine solide Datenverwaltungsstrategie ist entscheidend.
  • Verantwortung für die Datenqualität: Da die Transformationen erst später im Prozess stattfinden, sind möglicherweise nach dem Laden zusätzliche Schritte erforderlich, um die Datenqualität zu gewährleisten. Das Monitoring und die Validierung von Daten im Zielsystem werden wichtig.

Wenn Unternehmen diese Herausforderungen proaktiv angehen, können sie die Vorteile des ELT-Paradigmas voll ausschöpfen.

ELT im Vergleich zu ETL

Es ist wichtig, den Unterschied zwischen ELT und dem traditionelleren ETL-Prozess (Extrahieren, Transformieren, Laden) zu verstehen, um die richtige Datenintegrationsstrategie zu wählen. Der Hauptunterschied besteht darin, wann und wo der Transformationsschritt erfolgt.

Feature

ELT (Extrahieren, Laden, Transformieren)

ETL (Extrahieren, Transformieren, Laden)

Reihenfolge von Vorgängen

Extrahieren, dann laden, dann transformieren

Extrahieren, dann transformieren, dann laden

Transformationsort

Im Zieldatenspeicher (Data Warehouse/Lake)

In einem separaten Staging-Bereich oder einer ETL-Tool-Umgebung

In das Ziel geladene Daten

Rohe, unveränderte Daten

Bereinigte, strukturierte und transformierte Daten

Rechenleistung


Nutzt die Leistung des Zieldatenspeichers

Verwendet eine dedizierte ETL-Engine oder einen Staging-Server


Geschwindigkeit der Datenaufnahme


In der Regel schnelleres anfängliches Laden von Daten

Kann aufgrund der vorausgehenden Transformationsverarbeitung langsamer sein


Flexibilität für neue Anwendungsfälle


Hoch, da Rohdaten für die erneute Transformation verfügbar sind

Geringer, da Transformationen vordefiniert sind

Schemaverarbeitung

Gut geeignet für Schema-on-Read

Oft Schema-on-Write

Geeigneter Datentyp


Hervorragend für strukturierte, semistrukturierte und unstrukturierte Daten

Am besten für strukturierte und einige semistrukturierte Daten geeignet

Ressourcennutzung

Optimiert die Nutzung skalierbarer Cloud Data Warehouses

Für Transformationen ist möglicherweise eine separate Infrastruktur erforderlich


Feature

ELT (Extrahieren, Laden, Transformieren)

ETL (Extrahieren, Transformieren, Laden)

Reihenfolge von Vorgängen

Extrahieren, dann laden, dann transformieren

Extrahieren, dann transformieren, dann laden

Transformationsort

Im Zieldatenspeicher (Data Warehouse/Lake)

In einem separaten Staging-Bereich oder einer ETL-Tool-Umgebung

In das Ziel geladene Daten

Rohe, unveränderte Daten

Bereinigte, strukturierte und transformierte Daten

Rechenleistung


Nutzt die Leistung des Zieldatenspeichers

Verwendet eine dedizierte ETL-Engine oder einen Staging-Server


Geschwindigkeit der Datenaufnahme


In der Regel schnelleres anfängliches Laden von Daten

Kann aufgrund der vorausgehenden Transformationsverarbeitung langsamer sein


Flexibilität für neue Anwendungsfälle


Hoch, da Rohdaten für die erneute Transformation verfügbar sind

Geringer, da Transformationen vordefiniert sind

Schemaverarbeitung

Gut geeignet für Schema-on-Read

Oft Schema-on-Write

Geeigneter Datentyp


Hervorragend für strukturierte, semistrukturierte und unstrukturierte Daten

Am besten für strukturierte und einige semistrukturierte Daten geeignet

Ressourcennutzung

Optimiert die Nutzung skalierbarer Cloud Data Warehouses

Für Transformationen ist möglicherweise eine separate Infrastruktur erforderlich


ELT ist das von Google Cloud empfohlene Muster für die Datenintegration. Bei ELT werden Daten aus Quellsystemen extrahiert, in BigQuery geladen und dann in das gewünschte Format für die Analyse transformiert. Im Gegensatz zu ETL (Extrahieren, Transformieren, Laden), bei dem die Daten vor dem Laden in ein Data Warehouse transformiert werden, können Sie mit dem ELT-Ansatz die volle Leistungsfähigkeit von BigQuery nutzen, um Datentransformationen durchzuführen, und jeder SQL-Nutzer kann effektiv Datenintegrationspipelines entwickeln.

Die Wahl zwischen ELT und ETL hängt oft von spezifischen Anwendungsfällen, der vorhandenen Infrastruktur, den Datenmengen und den analytischen Anforderungen des Unternehmens ab. In vielen modernen Datenarchitekturen wird auch ein hybrider Ansatz verwendet, bei dem ELT und ETL für verschiedene Teile der Pipeline eingesetzt werden.

Anwendungsfälle für ELT

Das ELT-Muster ist in einer Vielzahl moderner Datenszenarien besonders effektiv:

Cloud Data Warehousing

ELT eignet sich hervorragend für Cloud-Datenplattformen wie BigQuery von Google Cloud, die eine enorme Rechenleistung und Skalierbarkeit bieten, um Transformationen an großen Datasets effizient zu verarbeiten.

Big-Data-Analysen

Bei riesigen Datenmengen, hoher Geschwindigkeit und großer Vielfalt ermöglicht ELT eine schnelle Datenaufnahme in einen Data Lake oder einen skalierbaren Speicher. Anschließend können mit Frameworks für die verteilte Verarbeitung nach Bedarf Transformationen angewendet werden.

Data-Lake-Implementierung

Data Lakes sind darauf ausgelegt, große Mengen an Rohdaten im nativen Format zu speichern. ELT-Prozesse laden diese Rohdaten, und verschiedene Analyse- und Verarbeitungs-Engines können sie dann transformieren und nutzen.

Datenverarbeitung in Echtzeit oder nahezu in Echtzeit

Bei Anwendungsfällen, die einen schnellen Zugriff auf aktuelle Daten erfordern, kann ELT die Ladephase beschleunigen. Transformationen für bestimmte Dashboards oder Anwendungen, die nahezu in Echtzeit aktualisiert werden, können dann für Teilmengen dieser Daten durchgeführt werden.

Explorative Datenanalyse und Data Science

Data Scientists bevorzugen oft den Zugriff auf unverarbeitete Rohdaten, um Feature Engineering durchzuführen, Machine-Learning-Modelle zu erstellen und Erkenntnisse zu gewinnen, ohne durch vordefinierte Transformationen eingeschränkt zu werden. ELT macht diese Rohdaten sofort verfügbar.

Zusammenführung verschiedener Datenquellen

Bei der Integration von Daten aus zahlreichen unterschiedlichen Systemen mit variierenden Strukturen vereinfacht ELT die erste Datenaufnahme, indem zuerst alles an einem zentralen Ort geladen und dann durch Transformationen harmonisiert wird.

Meistern Sie Ihre geschäftlichen Herausforderungen mit Google Cloud

Neukunden erhalten ein Guthaben im Wert von 300 $ für Google Cloud.

So verwendet Google Cloud ELT

Google Cloud bietet eine umfassende Suite von Diensten, mit denen sich ELT-Architekturen optimieren lassen. So können Unternehmen robuste und skalierbare Datenpipelines erstellen. Der Schwerpunkt liegt auf der Nutzung der Leistungsfähigkeit von Diensten wie BigQuery für In-Database-Transformationen.

So werden Google Cloud-Dienste in der Regel in ELT-Mustern eingesetzt:

  • Extraktion: Daten können aus zahlreichen Quellen extrahiert werden, z. B. mit Diensten wie Dataflow für die Verarbeitung von Batch- und Streamingdaten, Managed Service for Apache Spark für Spark- und Hadoop-Arbeitslasten oder direkt über Konnektoren und APIs in Google Cloud-Dienste. Pub/Sub kann zum Aufnehmen von Echtzeit-Streamingdaten verwendet werden.
  • Laden: Die extrahierten Rohdaten werden in der Regel in Cloud Storage geladen, das als hoch skalierbarer und langlebiger Data Lake dient. Daten aus Cloud Storage lassen sich effizient in BigQuery laden, dem serverlosen, hoch skalierbaren und kostengünstigen Multi-Cloud-Data Warehouse von Google Cloud. Daten können auch direkt in BigQuery gestreamt werden.
  • Transformation: Hier kommt das „T“ in ELT bei Google Cloud zum Tragen. BigQuery ist darauf ausgelegt, komplexe Transformationen im Petabyte-Bereich mit Standard-SQL durchzuführen. Die leistungsstarke Verarbeitungs-Engine verarbeitet Verknüpfungen, Aggregationen, Fensterfunktionen und andere Transformationen direkt mit den darin gespeicherten Daten. Nutzer können auch benutzerdefinierte Funktionen (UDFs) in JavaScript entwickeln oder BigQuery ML für Machine Learning in der Datenbank nutzen. Die Rohdaten verbleiben oft in Cloud Storage oder separaten BigQuery-Tabellen, sodass sie vielseitig neu transformiert werden können.

Die Infrastruktur von Google Cloud unterstützt die Grundsätze von ELT durch skalierbaren Speicher für Rohdaten, schnelle Ladefunktionen und eine leistungsstarke Engine in BigQuery, mit der Transformationen effizient durchgeführt werden können. So können Data Engineers Pipelines erstellen, in denen Daten schnell bereitgestellt und dann basierend auf spezifischen analytischen Anforderungen verfeinert werden – und das alles in einer verwalteten, serverlosen Umgebung.

Gleich loslegen

Profitieren Sie von einem Guthaben in Höhe von 300 $ und mehr als 20 immer kostenlose Produkten, um Google Cloud kennenzulernen.

Google Cloud