Die Datenherkunft ist wie ein GPS für die Informationen eines Unternehmens. Sie zeichnet den gesamten Weg der Daten auf und zeigt, woher sie stammen, wohin sie gingen und welche Schritte sie auf dem Weg dorthin durchlaufen haben. Durch die Nachverfolgung dieses Prozesses können Unternehmen Vertrauen in ihre Daten gewinnen und sie für wichtige Entscheidungen nutzen.
Die Datenherkunft ist eine Karte des Lebenszyklus der Daten. Sie zeigt, woher die Daten stammen, wie sie sich im Laufe der Zeit bewegt haben, welche Transformationen es gab und wo sie sich jetzt befinden. Dies stellt einen klaren Prüfpfad zum Verstehen, Verfolgen und Validieren von Daten bereit.
Diese umfassende Ansicht umfasst die Quellsysteme, alle angewandten Transformationen (wie Berechnungen, Aggregationen oder Filter) und die Ziele, an denen die Daten zum Einsatz kommen, z. B. Berichte, Dashboards oder andere Anwendungen. Sie können sich das wie einen detaillierten Stammbaum für die verschiedenen Informationen vorstellen, die Ihr Unternehmen verwendet.
Datenherkunft und Datenprovenienz werden zwar oft zusammen verwendet, konzentrieren sich aber auf unterschiedliche Aspekte des Datenlebenszyklus.
Kurz gesagt: Die Datenherkunft zeigt die gesamte Entwicklung von Daten über die Zeit und über Systeme hinweg, während sich die Datenprovenienz oft auf die Quelle und Authentizität eines bestimmten Datenelements konzentriert.
Die Erfassung der Datenherkunft war früher ein schwieriger, meist manueller Prozess, aber moderne Cloud-Lösungen helfen, ihn weitgehend zu automatisieren. Das Grundprinzip besteht darin, zu beobachten, wie sich Daten in Ihrer Infrastruktur bewegen und verändern, und dann einen visuellen, nachvollziehbaren Datensatz zu erstellen.
Moderne Datenplattformen nutzen Techniken wie Parsing und Monitoring, um Datenflüsse automatisch zu erkennen und abzubilden.
Eine API zur Datenherkunft ist hier eine Schlüsseltechnologie. Über eine solche API können verschiedene Systeme und Tools ihre Datennutzung an einen zentralen Katalog melden. Ein Tool zur Datenintegration kann beispielsweise die API verwenden, um dem zentralen System mitzuteilen: „Ich habe gerade Daten von Tabelle A in Tabelle B verschoben und eine Aggregation durchgeführt.“ So wird ein nahezu in Echtzeit erstellter, genauer Datensatz der Datenbewegung ohne manuellen Eingriff erstellt.
Eine automatische Erfassung ist zwar ideal, deckt aber möglicherweise nicht alle Teile der Legacy- oder benutzerdefinierten Systeme eines Unternehmens ab. In diesen Fällen müssen Nutzer möglicherweise auf manuelles Metadaten-Tagging oder eigene Berichte zurückgreifen. Dabei dokumentieren Fachexperten Datenflüsse und verknüpfen sie mit einem zentralen Katalog. Obwohl weniger effizient, ist dies manchmal notwendig, um die End-to-End-Ansicht zu vervollständigen.
Sobald die Informationen zur Datenherkunft erfasst wurden, werden sie Nutzern über ein Visualisierungstool präsentiert – oft eine Weboberfläche. Dieses Tool wandelt die komplexen Metadaten in ein übersichtlicheres, interaktives Diagramm um. Wenn Nutzer auf einen Bericht oder eine Tabelle klicken, wird ihnen umgehend ein Flussdiagramm mit allen Upstream-Quellen und Downstream-Verbrauchern angezeigt. Damit lässt sich die Reise der Daten so einfach nachvollziehen, als würde man einer Linie auf einer Karte folgen.
Eine gute Darstellung der Datenherkunft kann Ihnen helfen, die Fragen „Wer, was, wann, wo und warum“ schnell für beliebige Daten-Assets zu beantworten. Zu den wichtigsten erfassten Komponenten gehören:
Die Datenherkunft ist nicht nur eine technische Anwendung, sondern kann auch konkreten geschäftlichen Mehrwert schaffen, indem sie die Art und Weise verbessert, wie ein Unternehmen seine Daten verwaltet und ihnen vertraut.
Verbesserte Data Governance und Compliance
Die Datenherkunft hilft Unternehmen, genau nachzuweisen, welche Datenquellen zur Erstellung sensibler Berichte verwendet wurden. Dies ist oft für die Einhaltung von Vorschriften wie DSGVO, CCPA oder HIPAA erforderlich.
Schnellere Ursachenanalyse bei Problemen mit der Datenqualität
Dank der Datenherkunft können technische Teams fehlerhafte Datenpunkt schnell zurückverfolgen, vorbei an mehreren Transformationen und Systemen, bis genau zu dem Punkt, an dem der Fehler eingeführt wurde.
Verbesserte Auswirkungsanalyse bei Systemänderungen
Die Datenherkunft ermöglicht eine sofortige Wirkungsanalyse. Durch die Vorwärtsverfolgung ab einer vorgeschlagenen Änderung können Teams beliebige, auf diesen Daten basierende Berichte, Dashboards und Anwendungen sehen. So können sie das Risiko einschätzen und Datennutzer benachrichtigen, bevor die Änderung zu Schäden führt.
Größeres Vertrauen in Daten-Assets
Wenn Nutzer die Herkunft und die Transformationsschritte der Daten, die sie verwenden, einfach überprüfen können, steigt ihr Vertrauen in diese Daten enorm. Das kann datengestützte Entscheidungen fördern, da die Qualität oder Zuverlässigkeit der zugrunde liegenden Informationen nicht infrage gestellt wird.
Data-to-AI-Lineage
Die Datenherkunft kann auch bei der Ursachenanalyse im Bereich der KI-Modelle hilfreich sein. Wenn ein bereitgestelltes Modell Drift (Leistungsabfall) aufweist oder verzerrte Vorhersagen generiert, können Data Scientists mit der Datenherkunft schnell dessen Quelle finden.
Die Datenherkunft kann in verschiedenen Phasen des Datenentwicklungs-Lebenszyklus und auf verschiedenen Detailebenen nachverfolgt werden, je nach Bedarf.
Die Design-Time-Lineage erfasst den Datenfluss während der Entwicklung und Konfiguration in Entwicklungs- und Testumgebungen. Sie basiert auf dem Lesen der Blaupausen der Datenpipelines, z. B. Schemas, Skripts und ETL-Jobkonfigurationen. Sie gibt an, was mit den Daten geschehen soll.
Die Laufzeit-Lineage erfasst den Datenfluss, wie er tatsächlich in der Produktionsumgebung stattfindet. Sie zeichnet die spezifischen Eingaben und Ausgaben ausgeführter Jobs und Prozesse auf. Sie sagt Ihnen, was mit den Daten passiert ist, einschließlich unerwartetem Verhalten oder Fehlern. Im Rahmen der Data Governance wird die Laufzeit-Lineage oft als wichtiger angesehen, da sie die Realität widerspiegelt.
Der Detaillierungsgrad erfasster Daten wird als Granularität bezeichnet. Unternehmen wählen den Detaillierungsgrad basierend auf ihren Anforderungen an die Data Governance und der technischen Komplexität ihrer Umgebung.
Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“ Produkte kennenzulernen.