Weiter zu

Was ist Datenintegration?

Big Data, das Internet der Dinge (Internet of Things, IoT), Software as a Service (SaaS), Cloud-Aktivitäten und andere Faktoren haben zu einem sprunghaften Anstieg der Anzahl von Datenquellen und des schieren Datenvolumens weltweit geführt. Der Großteil dieser Daten wird jedoch in eigenständigen Silos oder separaten Datenspeichern gesammelt und gespeichert. Datenintegration ist der Vorgang, mit dem diese separaten Datensammlungen zusammengeführt werden, um den Nutzen der Daten und den Erkenntnisgewinn zu steigern. 

Datenintegration ist besonders wichtig für Unternehmen, die eine digitale Transformation anstreben: Die Verbesserung von Betriebsabläufen und der Kundenzufriedenheit sowie der immer stärker digitalisierte Markt erfordern Einblick in alle Daten.

Die Datenintegrationslösung von Google Cloud ist Cloud Data Fusion, ein vollständig verwalteter cloudnativer Dienst zur Datenintegration, mit dem Nutzer ETL- und ELT-Datenpipelines effizient erstellen und verwalten können.

Definition von Datenintegration

Datenintegration ist ein Vorgang, bei dem Daten aus verschiedenen Quellen zusammengeführt werden, um einen einheitlichen und nützlichen Überblick über die Daten zu erhalten. Dadurch können Unternehmen schnellere und bessere Entscheidungen treffen.  

Mit einer Datenintegration können alle Arten von Daten konsolidiert werden – strukturierte und unstrukturierte, Batch- und Streamingdaten. Mit diesen Daten können dann verschiedene Vorgänge durchgeführt werden, von einfachen Abfragen von Bestandsdatenbanken bis zu komplexen Analysen zu Prognosezwecken.

Herausforderungen bei der Datenintegration

Schwieriger Einsatz von Plattformen zur Datenintegration

Erfahrene Datenfachleute sind schwer zu finden – und teuer –, sind aber für die Bereitstellung der meisten Datenintegrationsplattformen erforderlich. Die Geschäftsanalysten, die für Entscheidungen Zugriff auf die Daten benötigen, sind wiederum von diesen Fachleuten abhängig. Dadurch verzögert sich die Wertschöpfung aus Datenanalysen.

Hohe Investitions- und Betriebskosten für die Infrastruktur

Die Infrastruktur, die für Datenintegrationsprojekte von Unternehmen erforderlich ist, verursacht erhebliche Investitions- und Betriebskosten für Kauf, Bereitstellung, Wartung und Verwaltung. Eine cloudbasierte Datenintegration als verwalteter Dienst bietet hier direkte Abhilfe.

An Anwendungen gekoppelte Daten

In der Vergangenheit waren Daten meist so eng an bestimmte Anwendungen gebunden, dass sie nirgends sonst im Unternehmen abgerufen und genutzt werden konnten. Heute werden Anwendungs- und Datenschicht entkoppelt, sodass Sie Daten flexibler nutzen können.

Probleme mit der Datensemantik

Daten, die in verschiedenen Versionen dieselbe Bedeutung haben, können unterschiedlich organisiert oder formatiert sein. Beispielsweise können Datumsangaben numerisch als tt/mm/jj oder als Monat, Tag, Jahr gespeichert werden. Die Möglichkeit der Transformation, die von ETL- und Verwaltungstools für Masterdaten geboten wird, ist für diese Problematik bestimmt.

Datenintegrationstools

Viele der folgenden Tools sind Bestandteil von Datenintegrationsplattformen:

  • Datenaufnahmetools: Tools zum Abrufen und Importieren von Daten, entweder zur sofortigen Verwendung oder zum Speichern zur späteren Verwendung
  • ETL-Tools: ETL steht für Extract, Transform und Load, die gängigste Methode zur Datenintegration
  • Data Catalogs: Diese ermöglichen Unternehmen das Finden und Inventarisieren von Datenressourcen, die auf mehrere Datensilos verstreut sind
  • Data-Governance-Tools: Tools, die die Verfügbarkeit, Sicherheit, Nutzerfreundlichkeit und Integrität von Daten sicherstellen
  • Tools zur Datenbereinigung: Tools, die ungültige Daten bereinigen, indem sie diese ersetzen, modifizieren oder löschen
  • Tools zur Datenmigration: Tools, die Daten zwischen Computern, Speichersystemen und Anwendungsformaten verschieben
  • Tools zur Masterdatenverwaltung: Tools, die Unternehmen helfen, gängige Datendefinitionen einzuhalten und eine zentrale Datenquelle („Single Source Of Truth“) zu erhalten  
  • Datenkonnektoren: Tools, die Daten von einer Datenbank in eine andere verschieben und Transformationen ausführen können

Wofür wird Datenintegration eingesetzt?

Datenintegration wird häufig für folgende Zwecke eingesetzt:

Entwicklung von Data Lakes

Mit Datenintegration werden Daten aus isolierten lokalen Plattformen in Data Lakes verschoben, um den Nutzen der Daten zu erhöhen.

Data-Warehouse-Prozess

Bei der Datenintegration werden Daten aus verschiedenen Quellen in einem Data Warehouse zusammengefasst, wo sie zu geschäftlichen Zwecken analysiert werden können. 

Marketing

Bei der Datenintegration werden all Ihre Marketingdaten, wie demografische Kundendaten, Daten aus sozialen Netzwerken und Webanalysedaten, an einem Ort zusammengeführt, um sie zu analysieren und daraus Maßnahmen abzuleiten.

IoT

Durch Datenintegration werden Daten aus mehreren IoT-Quellen zentral zusammengeführt, um den Wert der Daten ausschöpfen zu können.

Datenbankreplikation

Datenintegration spielt eine zentrale Rolle beim Replizieren von Daten aus einer Quelldatenbank wie Oracle, MongoDB oder MySQL in ein Cloud Data Warehouse.

Google hat eine der größten Barrieren überwunden, die einer Datenintegration bisher im Wege standen: die Tatsache, dass Datenintegrationstools bislang nur von qualifizierten Technikerteams eingesetzt werden konnten. Die Erstellung von Data Lakes oder Data Warehouses, mit denen sich der Nutzen von Daten ausschöpfen lässt, erforderte Fachkenntnisse zu Data Mining sowie zur Zusammenführung, Bereinigung und Analyse von Daten.

Cloud Data Fusion ist ein verwalteter, cloudnativer Dienst zur Datenaufnahme und -integration, der eine codefreie Entwicklung von ETL- und ELT-Datenpipelines ermöglicht. Teams erhalten damit Fähigkeiten, für die sonst ein erfahrener Data Engineer benötigt würde, auch wenn sie nur einfache oder gar keine Programmierkenntnisse besitzen.