Weiter zu

Was ist ETL?

ETL steht für „Extract, Transform and Load“ (Extrahieren, Transformieren und Laden) und ist ein bewährtes Verfahren, mit dem Daten aus mehreren Systemen in einer Datenbank, einem Datenspeicher, Data Warehouse oder Data Lake zusammengeführt werden. Mit ETL werden Legacy-Daten gespeichert oder – was heute üblicher ist – Daten aggregiert, um sie zu analysieren und fundiertere Geschäftsentscheidungen zu treffen.  

ETL wird bereits seit Jahrzehnten von Unternehmen eingesetzt. Neu daran ist, dass heute sowohl die Datenquellen als auch die Zieldatenbanken immer häufiger in der Cloud liegen.

Außerdem werden heute neben Batchpipelines immer mehr ETL-Streamingpipelines eingesetzt, also Pipelines, die kontinuierliche Datenströme in Echtzeit verarbeiten, anstatt sie in aggregierten Batches zu verarbeiten. Manche Unternehmen führen kontinuierliche Streamingprozesse mithilfe von Batch-Backfill-Pipelines oder Pipelines zur erneuten Verarbeitung aus.

Erfahren Sie mehr über das Google Cloud-Serviceportfolio für ETL, darunter Cloud Data Fusion, Dataflow und Dataproc.

Startbereit? Neukunden erhalten ein Guthaben im Wert von $300 für Google Cloud.

Definition von ETL

ETL ist ein umfassender Prozess, mit dem Unternehmen all ihre unterschiedlichen Daten – strukturiert oder unstrukturiert und von beliebig vielen Teams weltweit verwaltet – in einen Zustand bringen, in dem sie für geschäftliche Zwecke nützlich sind.

Moderne ETL-Lösungen müssen für die rasche Zunahme von Datenvolumen und -geschwindigkeiten Konzipiert sein. Zu den Grundanforderungen von ETL-Lösungen gehört heute die Aufnahme, Anreicherung und Verwaltung von Transaktionen sowie die Echtzeit-Unterstützung strukturierter und unstrukturierter Daten aus lokalen oder cloudbasierten Quellen.

So funktioniert cloudbasiertes ETL

Extrahieren

Beim Extrahieren werden Daten aus einer oder mehreren Quellen (online, lokal, Legacy, SaaS usw.) abgerufen. Wenn das Abrufen oder Extrahieren abgeschlossen ist, werden die Daten in einen Staging-Bereich geladen.

Transformation

Beim Transformieren werden diese Daten bereinigt und in ein gemeinsames Format umgewandelt, das am Zielort, z. B. Datenbank, Datenspeicher, Data Warehouse oder Data Lake, gespeichert werden kann. Das Bereinigen umfasst üblicherweise das Entfernen von Duplikaten sowie unvollständigen und offensichtlich fehlerhaften Datensätzen.

Laden

Beim Laden werden die formatierten Daten am entsprechenden Zielort, also in der Datenbank, dem Datenspeicher, Data Warehouse oder Data Lake eingefügt.

Meistern Sie Ihre geschäftlichen Herausforderungen mit Google Cloud

Neukunden erhalten ein Guthaben im Wert von 300 $ für Google Cloud.
Nächste Schritte
Sprechen Sie mit einem Google Cloud-Vertriebsexperten, um Ihre besonderen Herausforderungen im Detail zu besprechen.
Kontakt

Anwendungsfälle für ETL

Mit ETL lassen sich alle relevanten Daten an einem Ort zusammenführen und für verschiedene Zwecke bereitstellen, zum Beispiel Datenanalysen als Grundlage für Geschäftsentscheidungen durch Führungskräfte, Manager oder andere Stakeholder. ETL wird häufig in den folgenden Bereichen eingesetzt:

Data-Warehouse-Prozess

Ein Data Warehouse ist eine Datenbank, in der Daten aus verschiedenen Quellen kombiniert werden, um sie zu Geschäftszwecken gemeinsam zu analysieren. ETL wird oft zum Verschieben von Daten in ein Data Warehouse eingesetzt.

Machine Learning und künstliche Intelligenz

Maschinelles Lernen (ML) bezeichnet die Lernfähigkeit eines Systems ohne Rückgriff auf explizite Analysemodelle. Der Lernprozess basiert auf Verfahren der künstlichen Intelligenz. Mit ETL können Daten zu ML-Zwecken an einen zentralen Speicherort verschoben werden.

Marketingdaten einbinden

Das Einbinden von Marketingdaten bedeutet, dass Sie all Ihre Marketingdaten, wie Kundendaten, Daten aus sozialen Netzwerken und Webanalysedaten, an einem Ort zusammenführen, um sie zu analysieren und zukünftige Kampagnen zu entwickeln. ETL wird zum Sammeln und Vorbereiten der Marketingdaten verwendet.

IoT-Daten einbinden

IoT (Internet der Dinge) bezeichnet eine Infrastruktur von vernetzten Geräten, die mithilfe von eingebauten Hardware-Sensoren Daten erfassen und übertragen. Zu den Einsatzbereichen gehören Fabrikanlagen, Netzwerkserver, Smartphones und verschiedenste andere Nutzungen wie Wearables und implantierte Geräte. Mit ETL werden Daten aus mehreren IoT-Quellen zentral zusammengeführt, um sie zu analysieren.

Datenbankreplikation

Bei der Datenbankreplikation werden Daten aus Quelldatenbanken wie Oracle, Cloud SQL for MySQL, Microsoft SQL Server, Cloud SQL for PostgreSQL und MongoDB in ein Cloud Data Warehouse kopiert. Dabei kann es sich um einen einmaligen Vorgang oder einen fortlaufenden Prozess handeln, wenn Ihre Daten aktualisiert werden. ETL wird zum Replizieren der Daten verwendet.

Cloud-Migration

Unternehmen verschieben ihre Daten und Anwendungen aus lokalen Systemen in die Cloud, um Kosten zu sparen, ihre Anwendungen skalierbarer zu machen und ihre Daten zu schützen. ETL wird häufig für diese Migrationen eingesetzt.