Was ist ETL?

ETL steht für „Extract, Transform and Load“ (Extrahieren, Transformieren und Laden) und ist ein bewährtes Verfahren, mit dem Daten aus mehreren Systemen in einer Datenbank, einem Datenspeicher, Data Warehouse oder Data Lake zusammengeführt werden. Mit ETL werden Legacy-Daten gespeichert oder – was heute üblicher ist – Daten aggregiert, um sie zu analysieren und fundiertere Geschäftsentscheidungen zu treffen.  

ETL wird bereits seit Jahrzehnten von Unternehmen eingesetzt. Neu daran ist, dass heute sowohl die Datenquellen als auch die Zieldatenbanken immer häufiger in der Cloud liegen.

Des Weiteren werden heute neben Batchpipelines immer mehr ETL-Streamingpipelines eingesetzt, also Pipelines, die kontinuierliche Datenströme in Echtzeit verarbeiten, anstatt sie in aggregierten Batches zu verarbeiten. Manche Unternehmen führen kontinuierliche Streamingprozesse mithilfe von Batch-Backfill-Pipelines oder Pipelines zur erneuten Verarbeitung aus.

Erfahren Sie mehr über das Google Cloud-Serviceportfolio für ETL, darunter BigQuery Data Transfer Service, Dataflow und Dataform.

Startbereit? Neukunden erhalten ein Guthaben im Wert von 300 $ für Google Cloud.

Dataflow für ETL und Integration in Echtzeit – Video
Dataflow für ETL und Integration in Echtzeit

Definition von ETL

ETL ist ein umfassender Prozess, mit dem Unternehmen all ihre unterschiedlichen Daten – strukturiert oder unstrukturiert und von beliebig vielen Teams weltweit verwaltet – in einen Zustand bringen, in dem sie für geschäftliche Zwecke nützlich sind.

Moderne ETL-Lösungen müssen für die rasche Zunahme von Datenvolumen und -geschwindigkeiten Konzipiert sein. Zu den Grundanforderungen von ETL-Lösungen gehört heute die Aufnahme, Anreicherung und Verwaltung von Transaktionen sowie die Echtzeit-Unterstützung strukturierter und unstrukturierter Daten aus lokalen oder cloudbasierten Quellen.

Warum ist ETL wichtig?

ETL (Extract, Transform, Load) ist seit Jahrzehnten ein Eckpfeiler der Datenintegration und auch in modernen Datenarchitekturen noch relevant. ETL bietet mehrere potenzielle Vorteile:

  • Datenqualität: Die Datenqualität und -konsistenz wird in ETL-Prozessen häufig durch die Bereinigungs- und Transformationsschritte verbessert.
  • Datenverwaltung: ETL kann dabei helfen, Richtlinien zur Datenverwaltung durchzusetzen, indem sichergestellt wird, dass Daten konsistent und konform in das Zielsystem transformiert und geladen werden.
  • Legacy-Systeme: ETL wird oft verwendet, um Daten aus Legacy-Systemen zu integrieren, die möglicherweise nicht mit modernen Datenarchitekturen kompatibel sind.
  • Komplexe Transformationen: ETL-Tools bieten oft eine Vielzahl von Transformationsfunktionen, sodass sie sich für komplexe Datenmanipulationen eignen.

Funktionsweise von cloudbasiertem ETL

Extraktion

Beim Extrahieren werden Daten aus einer oder mehreren Quellen (online, lokal, Legacy, SaaS usw.) abgerufen. Wenn das Abrufen oder Extrahieren abgeschlossen ist, werden die Daten in einen Staging-Bereich geladen.

Transformation

Beim Transformieren werden diese Daten bereinigt und in ein gemeinsames Format umgewandelt, das am Zielort (Datenbank, Datenspeicher, Data Warehouse oder Data Lake) gespeichert werden kann. Das Bereinigen umfasst üblicherweise das Entfernen von Duplikaten sowie unvollständigen und offensichtlich fehlerhaften Datensätzen.

Wird geladen...

Beim Laden werden die formatierten Daten am entsprechenden Zielort, also in der Datenbank, dem Datenspeicher, Data Warehouse oder Data Lake eingefügt.

ETL vs. ELT

ETL und ELT sind beides Methoden zur Datenintegration, unterscheiden sich aber in der Reihenfolge der Datentransformation. ETL verarbeitet Daten, indem es sie vor dem Laden in das Zielsystem umwandelt. Bei ELT werden die Daten im Rohformat in das Zielsystem geladen und dann umgewandelt.

Die Wahl zwischen ETL und ELT hängt von mehreren Faktoren ab, darunter:

  • Datenvolumen: ELT ist in der Regel besser für große Datenmengen geeignet, da es die Verarbeitungsleistung von Cloud-Data-Warehouses nutzt.
  • Datenkomplexität: ETL wird oft für komplexe Transformationen verwendet, die spezielle Tools und Fachwissen erfordern.
  • Zielsystem: ELT eignet sich am besten für cloudbasierte Data Warehouses und Data Lakes, die über die erforderliche Rechenleistung für die Transformation verfügen.
  • Fähigkeiten und Ressourcen: ETL erfordert spezielle Fähigkeiten und Ressourcen für das Erstellen und Pflegen von Transformationspipelines. ELT ist möglicherweise einfacher zu implementieren, da es die Ressourcen von Cloud-Data-Warehouses nutzt.

Meistern Sie Ihre geschäftlichen Herausforderungen mit Google Cloud

Neukunden erhalten ein Guthaben im Wert von 300 $ für Google Cloud.
Sprechen Sie mit einem Google Cloud-Vertriebsexperten, um Ihre besonderen Herausforderungen im Detail zu besprechen.

Anwendungsfälle für ETL

Mit ETL lassen sich alle relevanten Daten an einem Ort zusammenführen und für verschiedene Zwecke bereitstellen, zum Beispiel Datenanalysen als Grundlage für Geschäftsentscheidungen durch Führungskräfte, Manager oder andere Stakeholder. ETL wird häufig in den folgenden Bereichen eingesetzt:

Data-Warehouse-Prozesse

Ein Data Warehouse ist eine Datenbank, in der Daten aus verschiedenen Quellen kombiniert werden, um sie zu Geschäftszwecken gemeinsam zu analysieren. ETL wird oft zum Verschieben von Daten in ein Data Warehouse eingesetzt.

Machine Learning und künstliche Intelligenz

Maschinelles Lernen (ML) bezeichnet die Lernfähigkeit eines Systems ohne Rückgriff auf explizite Analysemodelle. Der Lernprozess basiert auf Verfahren der künstlichen Intelligenz. Mit ETL können Daten zu ML-Zwecken an einen zentralen Speicherort verschoben werden.

Integration von Marketingdaten

Integration von Marketingdaten bedeutet, dass Sie all Ihre Marketingdaten, wie Kundendaten, Daten aus sozialen Netzwerken und Webanalysedaten, an einem Ort zusammenführen, um sie zu analysieren und zukünftige Kampagnen zu entwickeln. ETL wird zum Sammeln und Vorbereiten der Marketingdaten verwendet.

Integration von IoT-Daten

IoT (Internet der Dinge) bezeichnet eine Infrastruktur von vernetzten Geräten, die mithilfe von eingebauten Hardware-Sensoren Daten erfassen und übertragen. Zu den Einsatzbereichen gehören Fabrikanlagen, Netzwerkserver, Smartphones und verschiedenste andere Nutzungen wie Wearables und implantierte Geräte. Mit ETL werden Daten aus mehreren IoT-Quellen zentral zusammengeführt, um sie zu analysieren.

Datenbankreplikation

Bei der Datenbankreplikation werden Daten aus Quelldatenbanken wie Oracle, Cloud SQL for MySQL, Microsoft SQL Server, Cloud SQL for PostgreSQL und MongoDB in ein Cloud Data Warehouse kopiert. Dabei kann es sich um einen einmaligen Vorgang oder einen fortlaufenden Prozess handeln, wenn Ihre Daten aktualisiert werden. ETL wird zum Replizieren der Daten verwendet.

Cloud-Migration

Unternehmen verschieben ihre Daten und Anwendungen aus lokalen Systemen in die Cloud, um Kosten zu sparen, ihre Anwendungen skalierbarer zu machen, ihre Daten zu schützen und KI-Innovationen zu nutzen. ETL wird häufig für diese Migrationen eingesetzt.

Gleich loslegen

Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“-Produkte kennenzulernen.

Google Cloud