Was ist die Datenherkunft?

Die Datenherkunft ist wie ein GPS für die Informationen eines Unternehmens. Sie zeichnet den gesamten Weg der Daten auf und zeigt, woher sie stammen, wohin sie gingen und welche Schritte sie auf dem Weg dorthin durchlaufen haben. Durch die Nachverfolgung dieses Prozesses können Unternehmen Vertrauen in ihre Daten gewinnen und sie für wichtige Entscheidungen nutzen.

Definition: Datenherkunft

Die Datenherkunft ist eine Karte des Lebenszyklus der Daten. Sie zeigt, woher die Daten stammen, wie sie sich im Laufe der Zeit bewegt haben, welche Transformationen es gab und wo sie sich jetzt befinden. Dies stellt einen klaren Prüfpfad zum Verstehen, Verfolgen und Validieren von Daten bereit.

Diese umfassende Ansicht umfasst die Quellsysteme, alle angewandten Transformationen (wie Berechnungen, Aggregationen oder Filter) und die Ziele, an denen die Daten zum Einsatz kommen, z. B. Berichte, Dashboards oder andere Anwendungen. Sie können sich das wie einen detaillierten Stammbaum für die verschiedenen Informationen vorstellen, die Ihr Unternehmen verwendet.

Datenherkunft und Data Provenance im Vergleich

Datenherkunft und Datenprovenienz werden zwar oft zusammen verwendet, konzentrieren sich aber auf unterschiedliche Aspekte des Datenlebenszyklus.

  • Die Datenherkunft betrachtet den Weg der Daten aus einer makroökonomischen, historischen und strategischen Perspektive. Sie konzentriert sich auf den gesamten Pfad und die Transformationslogik, die zum aktuellen Zustand eines Daten-Assets geführt haben. Gemeint ist hier das große Bild.
  • Die Datenprovenienz ist detaillierter und spezifischer und konzentriert sich oft auf die unmittelbare Quelle und das Eigentum eines bestimmten Datenpunkts oder Datensatzes zu einer bestimmten Zeit. Sie wird häufig verwendet, um die Herkunft von Daten zu authentifizieren.

Kurz gesagt: Die Datenherkunft zeigt die gesamte Entwicklung von Daten über die Zeit und über Systeme hinweg, während sich die Datenprovenienz oft auf die Quelle und Authentizität eines bestimmten Datenelements konzentriert.

Funktionsweise: Datenherkunft

Die Erfassung der Datenherkunft war früher ein schwieriger, meist manueller Prozess, aber moderne Cloud-Lösungen helfen, ihn weitgehend zu automatisieren. Das Grundprinzip besteht darin, zu beobachten, wie sich Daten in Ihrer Infrastruktur bewegen und verändern, und dann einen visuellen, nachvollziehbaren Datensatz zu erstellen.

Moderne Datenplattformen nutzen Techniken wie Parsing und Monitoring, um Datenflüsse automatisch zu erkennen und abzubilden.

  • Parsing: Die Plattform kann die in Sprachen wie SQL geschriebene Transformationslogik lesen und verstehen. Durch das Lesen einer Abfrage (z. B. in einem BigQuery-Job) kann das System erkennen, welche Quelltabellen und ‑spalten zum Erstellen einer neuen, abgeleiteten Tabelle verwendet wurden.
  • Monitoring: Die Plattform überwacht die Reise von Daten zwischen verschiedenen Diensten (z. B. von einem Data Warehouse zu einem Data Lake oder einer Streaming-Pipeline).

Eine API zur Datenherkunft ist hier eine Schlüsseltechnologie. Über eine solche API können verschiedene Systeme und Tools ihre Datennutzung an einen zentralen Katalog melden. Ein Tool zur Datenintegration kann beispielsweise die API verwenden, um dem zentralen System mitzuteilen: „Ich habe gerade Daten von Tabelle A in Tabelle B verschoben und eine Aggregation durchgeführt.“ So wird ein nahezu in Echtzeit erstellter, genauer Datensatz der Datenbewegung ohne manuellen Eingriff erstellt.

Eine automatische Erfassung ist zwar ideal, deckt aber möglicherweise nicht alle Teile der Legacy- oder benutzerdefinierten Systeme eines Unternehmens ab. In diesen Fällen müssen Nutzer möglicherweise auf manuelles Metadaten-Tagging oder eigene Berichte zurückgreifen. Dabei dokumentieren Fachexperten Datenflüsse und verknüpfen sie mit einem zentralen Katalog. Obwohl weniger effizient, ist dies manchmal notwendig, um die End-to-End-Ansicht zu vervollständigen.

Sobald die Informationen zur Datenherkunft erfasst wurden, werden sie Nutzern über ein Visualisierungstool präsentiert – oft eine Weboberfläche. Dieses Tool wandelt die komplexen Metadaten in ein übersichtlicheres, interaktives Diagramm um. Wenn Nutzer auf einen Bericht oder eine Tabelle klicken, wird ihnen umgehend ein Flussdiagramm mit allen Upstream-Quellen und Downstream-Verbrauchern angezeigt. Damit lässt sich die Reise der Daten so einfach nachvollziehen, als würde man einer Linie auf einer Karte folgen.

Wichtige Komponenten von Karten zur Datenherkunft

Eine gute Darstellung der Datenherkunft kann Ihnen helfen, die Fragen „Wer, was, wann, wo und warum“ schnell für beliebige Daten-Assets zu beantworten. Zu den wichtigsten erfassten Komponenten gehören:

  • Quelle: Woher die Daten stammen, z. B. aus einer Transaktionsdatenbank, einer Datei oder einem externen System.
  • Transformationslogik: Die spezifischen Operationen oder Geschäftsregeln, die auf die Daten angewendet werden; dies können SQL-Abfragen, Python-Scripts oder eine ETL-Joblogik (Extract, Transform, Load) sein.
  • Pfad/Ablauf: Die Abfolge an Systemen, Prozessen und Datenspeichern, durch die die Daten fließen.
  • Zeit/Version: Wann die Daten verarbeitet wurden und welche Version der Daten oder der Transformationslogik verwendet wurde.
  • Ziel/Verbraucher: Der endgültige Speicherort der Daten und wer oder was sie verwendet hat, z. B. ein behördlicher Bericht oder eine Maschine.

Vorteile der Datenherkunft

Die Datenherkunft ist nicht nur eine technische Anwendung, sondern kann auch konkreten geschäftlichen Mehrwert schaffen, indem sie die Art und Weise verbessert, wie ein Unternehmen seine Daten verwaltet und ihnen vertraut.

Verbesserte Data Governance und Compliance

Die Datenherkunft hilft Unternehmen, genau nachzuweisen, welche Datenquellen zur Erstellung sensibler Berichte verwendet wurden. Dies ist oft für die Einhaltung von Vorschriften wie DSGVO, CCPA oder HIPAA erforderlich.

Schnellere Ursachenanalyse bei Problemen mit der Datenqualität

Dank der Datenherkunft können technische Teams fehlerhafte Datenpunkt schnell zurückverfolgen, vorbei an mehreren Transformationen und Systemen, bis genau zu dem Punkt, an dem der Fehler eingeführt wurde.

Verbesserte Auswirkungsanalyse bei Systemänderungen

Die Datenherkunft ermöglicht eine sofortige Wirkungsanalyse. Durch die Vorwärtsverfolgung ab einer vorgeschlagenen Änderung können Teams beliebige, auf diesen Daten basierende Berichte, Dashboards und Anwendungen sehen. So können sie das Risiko einschätzen und Datennutzer benachrichtigen, bevor die Änderung zu Schäden führt.

Größeres Vertrauen in Daten-Assets

Wenn Nutzer die Herkunft und die Transformationsschritte der Daten, die sie verwenden, einfach überprüfen können, steigt ihr Vertrauen in diese Daten enorm. Das kann datengestützte Entscheidungen fördern, da die Qualität oder Zuverlässigkeit der zugrunde liegenden Informationen nicht infrage gestellt wird.

Data-to-AI-Lineage

Die Datenherkunft kann auch bei der Ursachenanalyse im Bereich der KI-Modelle hilfreich sein. Wenn ein bereitgestelltes Modell Drift (Leistungsabfall) aufweist oder verzerrte Vorhersagen generiert, können Data Scientists mit der Datenherkunft schnell dessen Quelle finden.

Gängige Arten der Datenherkunft

Die Datenherkunft kann in verschiedenen Phasen des Datenentwicklungs-Lebenszyklus und auf verschiedenen Detailebenen nachverfolgt werden, je nach Bedarf.

Design-Time-Lineage

Die Design-Time-Lineage erfasst den Datenfluss während der Entwicklung und Konfiguration in Entwicklungs- und Testumgebungen. Sie basiert auf dem Lesen der Blaupausen der Datenpipelines, z. B. Schemas, Skripts und ETL-Jobkonfigurationen. Sie gibt an, was mit den Daten geschehen soll.

Laufzeit-Lineage

Die Laufzeit-Lineage erfasst den Datenfluss, wie er tatsächlich in der Produktionsumgebung stattfindet. Sie zeichnet die spezifischen Eingaben und Ausgaben ausgeführter Jobs und Prozesse auf. Sie sagt Ihnen, was mit den Daten passiert ist, einschließlich unerwartetem Verhalten oder Fehlern. Im Rahmen der Data Governance wird die Laufzeit-Lineage oft als wichtiger angesehen, da sie die Realität widerspiegelt.

Detaillierte Herkunftsebenen

Der Detaillierungsgrad erfasster Daten wird als Granularität bezeichnet. Unternehmen wählen den Detaillierungsgrad basierend auf ihren Anforderungen an die Data Governance und der technischen Komplexität ihrer Umgebung.

  • Auf Tabellenebene: Verfolgt den Datenfluss zwischen ganzen Tabellen oder Datasets. Es wird angezeigt, dass „Kundentabelle A“ in „Umsatzberichtstabelle B“ geflossen ist.
  • Beispiel: Ein System zeigt, dass die gesamte Tabelle „raw_transactions“ in die Tabelle „daily_aggregations“ geladen wurde.
  • Spaltenebene: Verfolgt den Datenfluss von einer Quellspalte zu einer Zielspalte, einschließlich der angewandten Transformationen. Dies ist oft für die Compliance erforderlich.
  • Beispiel: Es wird nachverfolgt, dass die Spalte „customer_id“ aus der Quelldatenbank im Data Warehouse in „user_key“ umbenannt und dann als Teil eines Joins verwendet wurde, um den abschließenden Bericht zu erstellen.
  • Berichtsebene: Hier wird erfasst, welche Berichte, Dashboards oder Anwendungen welche Tabellen und Spalten aufnehmen. Dies ist entscheidend für die Wirkungsanalyse und das Vertrauen der Geschäftsnutzer.
  • Beispiel: Ein Business Analyst kann einen Messwert im Dashboard „Executive Sales“ bis zu den spezifischen Spalten und Tabellen zurückverfolgen, die für dessen Berechnung verwendet wurden.
  • End-to-end: Bietet eine vollständige Übersicht über alle Systeme, von der ursprünglichen Quellanwendung (z. B. ein CRM) über alle Staging-, Bereinigungs- und Transformationsschritte bis hin zum endgültigen Bericht oder Machine-Learning-Modell.
  • Beispiel: Die Customer Journey eines einzelnen Kunden wird verfolgt, von der ersten Registrierung (in der Datenbank der Webanwendung erfasst) bis zur Zusammenfassung der Nutzung in der Ausgabe des Modells zur Vorhersage der Kundenabwanderung.

Meistern Sie Ihre geschäftlichen Herausforderungen mit Google Cloud

Neukunden erhalten ein Guthaben im Wert von 300 $ für Google Cloud.

Gleich loslegen

Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“ Produkte kennenzulernen.

Google Cloud