Diese Seite wurde von der Cloud Translation API übersetzt.

Datenherkunft

Mit der Datenherkunft können Sie nachvollziehen, wie Daten sich durch Ihre Systeme bewegen: woher sie stammen, wohin sie übertragen werden und welche Transformationen auf sie angewendet werden.

Warum benötigen Sie Data Lineage?

Bei großen Datasets müssen Daten oft in Entitäten umgewandelt werden, die auf die Anforderungen eines bestimmten Projekts zugeschnitten sind: Textdateien, Tabellen, Berichte, Dashboards, Modelle.

Angenommen, Sie haben einen Onlineshop und erfassen jeden Kauf in einer einzigen SQL-Tabelle. Damit Ihre Analysten einfacher mit den Daten arbeiten können, führen Sie Jobs aus, mit denen Informationen aus dieser einzelnen Tabelle extrahiert und kleinere Tabellen nach Region, Marke oder Verkaufspreis erstellt werden. Ihre Analysten beginnen dann mit dem gleichen Prozess: Sie führen weitere Transformationen durch und führen diese kleineren Tabellen mit anderen Datenquellen zusammen, um noch mehr Tabellen zu erstellen.

Das kann für Ihre Stakeholder zu einer großen Herausforderung werden:

Datenverbraucher können nicht mit einem Self-Service-Tool herausfinden, ob Daten aus einer autoritativen Quelle stammen.
Data Engineers können Probleme nicht beheben, da es keine zuverlässige Möglichkeit gibt, alle Datentransformationen nachzuvollziehen.
Data Engineers und Analysten können die möglichen Auswirkungen nicht vollständig bewerten, bevor sie Tabellen ändern oder löschen.
Data Governors können nicht nachvollziehen, wie sensible Daten in der gesamten Organisation verwendet werden, und die Einhaltung regulatorischer Anforderungen nicht überprüfen.

Die Datenherkunft ist eine Lösung, die eine praktische Möglichkeit bietet, Folgendes zu tun:

Mithilfe von Herkunftsgraphen können Sie nachvollziehen, wie Daten gewonnen und transformiert werden.
Trace-Fehler im Zusammenhang mit Einträgen und Datenvorgängen lassen sich auf ihre Ursachen zurückführen.
Durch die Analyse der Auswirkungen können Sie das Änderungsmanagement verbessern: Vermeiden Sie Ausfallzeiten oder unerwartete Fehler, verstehen Sie abhängige Einträge und arbeiten Sie mit relevanten Stakeholdern zusammen.

Informationsmodell für Datenherkunft

Im Grunde ist Lineage ein Datensatz, in dem die Transformation von Daten aus Quellen in Ziele aufgezeichnet wird. Die Data Lineage API erfasst diese Informationen und organisiert sie in einem hierarchischen Datenmodell mit den Konzepten von Prozessen, Ausführungen und Ereignissen.

Prozess

Ein Prozess ist die Definition eines Datenumwandlungsvorgangs, der für ein bestimmtes System unterstützt wird. Im Kontext von BigQuery-Abstammung ist ein process einer der unterstützten Jobtypen.

Ausführen

Eine Ausführung ist die Ausführung eines Prozesses. Prozesse können mehrmals ausgeführt werden. Ausführungen enthalten Details wie Start- und Endzeit, Status oder zusätzliche Attribute. Weitere Informationen finden Sie in der Ressourcenreferenz zu run.

Ereignis

Ein Ereignis stellt einen Zeitpunkt dar, zu dem eine Datentransformation stattgefunden hat und Daten zwischen einer Quell- und einer Zielentität verschoben wurden.

Ereignisse enthalten eine Liste von Links, die definieren, welcher Eintrag die Quelle und welcher das Ziel in einem bestimmten Ereignis war. Ereignisse werden zwar zum Berechnen von Herkunftsgraphen verwendet, sind aber nicht direkt in der Google Cloud Konsole verfügbar. Sie können sie mit der Data Lineage API erstellen, lesen und löschen, aber nicht aktualisieren.

Beispiel

Im folgenden Beispiel werden Daten zwischen BigQuery-Tabellen kopiert:

Wie Daten zwischen den Tabellen verschoben werden, wird durch den Lineage-Prozess beschrieben (im Diagramm durch das Symbol dargestellt): Das kann eine SQL-CREATE TABLE AS SELECT-Abfrage oder eine INSERT-Anweisung sein.

Jede Ausführung dieser SQL-Anweisung ist ein einzelner Lauf. Läufe enthalten Ereignisse, in denen aufgezeichnet wird, welche Tabellen als Quellen und welche als Ziele verwendet wurden. In diesem Beispiel sind die Tabellen customer_year und customers beide die Quelle für die Zieltabelle top_customer.

Herkunftsdiagramm

Lineage-Diagramme stellen Informationen dar, die von der Data Lineage API für einen bestimmten Dataplex Universal Catalog-Eintrag erfasst wurden. Ein Herkunftsdiagramm zeigt die Herkunft, die einem einzelnen Stammbaumknoten vor- oder nachgelagert ist. Root bezieht sich auf den Eintrag, für den Sie den Datenursprung ansehen.

Das Beispiel zeigt Daten aus zwei Tabellen, die transformiert und dann in einer neuen Tabelle zusammengeführt werden. Ein Detailbereich mit SQL-Code ist unten angedockt. — Beispiel für ein Herkunftsdiagramm in der Google Cloud -Konsole.

Dataplex Universal Catalog verwendet die Data Lineage API, um Einträge zu identifizieren, deren voll qualifizierter Name mit von der Datenherkunft erkannten Entitäten übereinstimmt. Für abgeglichene Dataplex Universal Catalog-Einträge können Sie auf der Detailseite auf den Tab Lineage zugreifen und das Diagramm ansehen.

In Herkunftsgrafiken werden zwei Arten von Elementen dargestellt:

Breite, rechteckige Schaltflächen, die Entitäten darstellen, die an der Erstellung von Informationen zum Datenursprung beteiligt sind, als Quellen oder Ziele eines Datenursprungsereignisses.
Kleinere, quadratische Schaltflächen, die Prozesse darstellen, die für das Erstellen oder Aktualisieren der Quell- oder Zielentitäten verantwortlich sind. Für die Prozessschaltflächen werden Symbole verwendet, die für das Quellsystem spezifisch sind, das sie an die Data Lineage API gemeldet hat. Für BigQuery-Jobs wird beispielsweise das Symbol verwendet.

Visualisierung des Herkunftspfads

Mit Visualisierungen von Herkunftspfaden können Sie die Herkunftsverknüpfungen zwischen zwei ausgewählten Ressourcen nachvollziehen. Im Gegensatz dazu zeigt das Herkunftsdiagramm die Herkunft, die sich upstream oder downstream von einem einzelnen Stamm-Eintrag befindet, möglicherweise für mehrere Quellen oder Ziele.

Sie wählen die Stammressource und eine Zielressource aus. In derGoogle Cloud -Konsole werden dann die Herkunftsverknüpfungen zwischen den beiden Ressourcen angezeigt. Andere Ressourcen und Prozesse, die nicht auf einem Pfad zwischen den beiden Ressourcen liegen, werden in der Pfadvisualisierung ausgeblendet.

Beispiel für die Visualisierung des Herkunftspfads in der Google Cloud Console. — Beispiel für eine Visualisierung des Herkunftspfads in der Google Cloud -Konsole.

Lineage-Listenansicht

In der Herkunftslistenansicht werden detaillierte Herkunftsinformationen für Entitäten in einer einzelnen Tabelle angezeigt.

Im Vergleich zum Herkunftsdiagramm, das sich besser für relativ kleine Herkunftsdiagramme eignet, können Sie in der Herkunftslistenansicht Herkunftsinformationen für Entitäten mit vielen Verbindungen ansehen.

Das folgende Bild zeigt ein Beispiel für die Ansicht der Herkunft in derGoogle Cloud -Konsole. In der folgenden Liste wird das Bild genauer beschrieben.

Beispiel für die Ansicht der Herkunft in der Google Cloud Console. — Beispiel für eine Ansicht der Herkunft in der Google Cloud -Konsole.

Jede Zeile in der Tabelle stellt eine einzelne Herkunftsinformation zwischen zwei Einträgen dar. Im Diagramm werden diese Namen als Abstammungsverbindungen zwischen zwei Einträgen dargestellt, einschließlich aller Prozessknoten dazwischen. Source und Target sind beispielsweise Asset-Knoten, zwischen denen sich möglicherweise mehrere Prozessknoten befinden.
Mit der Option Richtung wird der Teil des Datenflusses angegeben, der in der Liste angezeigt werden soll, bezogen auf das Stamm-Asset:
- Upstream: Hier werden Lineage-Informationen für Einträge angezeigt, die Datenquellen für den ausgewählten Eintrag sind. Im Herkunftsgraphen sind das die Einträge, die links vom ausgewählten Eintrag angezeigt werden.
- Downstream: Hier werden Lineage-Informationen für Einträge angezeigt, die den ausgewählten Eintrag verwenden oder von ihm abgeleitet sind. Im Herkunftsdiagramm sind das die Einträge, die rechts neben dem ausgewählten Eintrag angezeigt werden.
Mit der Option Zeitraum können Sie Lineage-Informationen nach dem Zeitpunkt filtern, zu dem die Lineage aufgetreten ist:
- Beginn: Es wird die Lineage nach dem Startzeitpunkt angezeigt.
- Ende: Es wird die Lineage angezeigt, die vor dem Endzeitpunkt aufgetreten ist.
Tiefe bezieht sich darauf, wie weit eine Quell- oder abgeleitete Ressource von der Stammressource entfernt ist. In der Listenansicht werden bis zu 1.000 Abstammungslinks mit einer maximalen Tiefe von 10 Abstammungslinks von der Stammressource angezeigt. Wenn es eine Abstammung außerhalb dieses Bereichs gibt, werden Sie benachrichtigt. Wenn Sie die Herkunft außerhalb dieses Bereichs sehen möchten, wählen Sie in der Listenansicht den Namen einer anderen Einheit aus.
Im Bereich Details werden Informationen zur Quelle des Links, zum Ziel des Links und zu allen Prozessen angezeigt, die diesen Link erstellt haben.
Sie können die in der Tabelle angezeigten Spalten anpassen und die Ergebnisse filtern. Sie können die Ergebnisse auch in eine CSV-Datei exportieren.

Automatisierte Verfolgung der Datenherkunft

Wenn Sie die Data Lineage API aktivieren, Google Cloud beginnen Systeme, die die Datenherkunft unterstützen, mit der Meldung ihrer Datenbewegungen. Jedes integrierte System kann Herkunftsinformationen für einen anderen Bereich von Datenquellen bereitstellen. Weitere Informationen zu den einzelnen unterstützten Produkten finden Sie in den folgenden Abschnitten.

BigQuery

Wenn Sie die Datenherkunft in Ihrem BigQuery-Projekt aktivieren, zeichnet Dataplex Universal Catalog automatisch Herkunftsinformationen für Folgendes auf:

Neue Tabellen, die durch die folgenden BigQuery-Jobs erstellt werden:
- Kopierjobs
- Ladejobs, bei denen der Cloud Storage-URI verwendet wird, um Daten in einem beliebigen zulässigen Format aus Cloud Storage zu laden
- Abfragejobs, die die folgende DDL-Anweisung (Data Definition Language) in GoogleSQL verwenden:
  - CREATE TABLE
  - CREATE TABLE AS SELECT
  - CREATE TABLE COPY
  - CREATE TABLE CLONE
  - CREATE TABLE FUNCTION
  - CREATE TABLE LIKE
  - CREATE VIEW
  - CREATE MATERIALIZED VIEW
Vorhandene Tabellen, die durch die Verwendung der folgenden DML-Anweisungen (Data Manipulation Language) in GoogleSQL erstellt wurden:
- SELECT in Bezug auf einen der aufgeführten Tabellentypen:
- INSERT SELECT
- MERGE
- UPDATE
- LÖSCHEN

BigQuery-Kopier-, Abfrage- und Ladejobs werden als Prozesse dargestellt. Wenn Sie die Prozessdetails aufrufen möchten, klicken Sie im Herkunftsdiagramm auf . Jeder Prozess enthält die BigQuery-job_id in der Liste attributes für den letzten BigQuery-Job.

Weitere Dienste

Die Datenherkunft unterstützt die Integration mit den folgendenGoogle Cloud -Diensten:

Datenherkunft für benutzerdefinierte Datenquellen

Mit der Data Lineage API können Sie Lineage-Informationen manuell für jede Datenquelle aufzeichnen, die von den integrierten Systemen nicht unterstützt wird.

Dataplex Universal Catalog kann Herkunftsgraphen für manuell aufgezeichnete Herkunft erstellen, wenn Sie eine fullyQualifiedName verwenden, die mit den vollständig qualifizierten Namen vorhandener Dataplex Universal Catalog-Einträge übereinstimmt. Wenn Sie den Datenursprung für eine benutzerdefinierte Datenquelle aufzeichnen möchten, erstellen Sie zuerst einen benutzerdefinierten Eintrag.

Jeder Prozess für eine benutzerdefinierte Datenquelle kann den Schlüssel sql in der Attributliste enthalten. Der Wert eines solchen Schlüssels wird verwendet, um die Code-Hervorhebung im Detailbereich des Datenherkunftsgraphen zu rendern. Die SQL-Anweisung wird so angezeigt, wie sie angegeben wurde. Der Nutzer ist dafür verantwortlich, vertrauliche Informationen herauszufiltern. Beim Schlüsselnamen sql wird zwischen Groß- und Kleinschreibung unterschieden.

OpenLineage

Wenn Sie OpenLineage bereits verwenden, um Informationen zum Datenursprung aus anderen Datenquellen zu erfassen, können Sie OpenLineage-Ereignisse in Dataplex Universal Catalog importieren und in der Google Cloud Konsole anzeigen. Weitere Informationen finden Sie unter Mit OpenLineage integrieren.

Beschränkungen

Alle Informationen zur Herkunft werden nur 30 Tage lang im System aufbewahrt.
Die Informationen zur Datenherkunft bleiben erhalten, nachdem Sie die zugehörige Datenquelle entfernt haben. Wenn Sie also eine BigQuery-Tabelle und den zugehörigen Dataplex Universal Catalog-Eintrag entfernen, können Sie das Lineage für diese Tabelle bis zu 30 Tage lang weiterhin über die API lesen.

Auf Datenherkunft zugreifen

Weitere Informationen zum Zugriff auf die Datenherkunft finden Sie unter Datenherkunft mit Google Cloud -Systemen verwenden und in der Data Lineage API.

Preise

Für die Datenherkunft wird in Dataplex Universal Catalog die Premium-Verarbeitungs-SKU verwendet. Weitere Informationen finden Sie unter Preise.
Wenn Sie die Gebühren für die Datenherkunft von anderen Gebühren in der Premium-Verarbeitungs-SKU für Dataplex Universal Catalog trennen möchten, verwenden Sie im Cloud Billing-Bericht das Label goog-dataplex-workload-type mit dem Wert LINEAGE.
Wenn Sie die Data Lineage API Origin sourceType mit einem anderen Wert als CUSTOM aufrufen, fallen zusätzliche Kosten an.

Nächste Schritte

Kurzanleitung zum Nachverfolgen des Datenursprungs für Kopier- und Abfragejobs einer BigQuery-Tabelle
Informationen zur Verwendung der Datenherkunft mit Google Cloud Systemen
Administrativen Informationen finden Sie unter Überlegungen zur Herkunft und Audit-Logging zur Datenherkunft.