Data Lineage ist ein Dataplex eine Funktion, mit der Sie verfolgen können, wie Daten sich durch Ihre Systeme bewegen: woher sie kommen. woher sie übergeben werden und welche Transformationen darauf angewendet werden.
Warum benötigen Sie eine Datenabfolge?
Der Umgang mit großen Datasets beinhaltet oft die Umwandlung von Daten in maßgeschneiderte Entitäten an die Anforderungen eines bestimmten Projekts angepasst: Textdateien, Tabellen, Berichte, Dashboards, Modelle.
Angenommen, Sie haben einen Onlineshop, in dem Sie jeden Kauf in einer einzigen SQL-Tabelle erfassen. Um Ihren Analysten die Arbeit mit den Daten zu erleichtern, führen Sie Jobs aus, mit denen Informationen aus dieser einzelnen Tabelle extrahiert und kleinere Tabellen nach Region, Marke oder Sonderangebotspreis erstellt werden. Ihre Analysefachkräfte beginnen, das Gleiche zu tun: Sie führen weitere Transformationen durch und führen diese kleineren mit anderen Datenquellen kombinieren, um noch mehr Tabellen zu erstellen.
Dies kann für Ihre Stakeholder zu einer großen Herausforderung werden:
- Datenabnehmer können mit einem Self-Service-Tool nicht feststellen, ob Daten aus einer vertrauenswürdigen Quelle stammen.
- Data Engineers können Probleme nicht aufgrund fehlender zuverlässiger Methoden verursachen. um alle Datentransformationen zu verfolgen.
- Dateningenieure und ‑analysten können die möglichen Auswirkungen nicht vollständig beurteilen, bevor sie Tabellen ändern oder löschen.
- Datenverantwortliche können nicht nachvollziehen, wie sensible Daten in der gesamten Organisation verwendet werden, und die Einhaltung der gesetzlichen Bestimmungen nicht gewährleisten.
Die Datenabfolge ist eine Lösung, die eine praktische Möglichkeit bietet,
- Mithilfe von Herkunftsgraphen können Sie nachvollziehen, woher Daten stammen und wie sie transformiert werden.
- Trace-Fehler im Zusammenhang mit Einträgen und Datenvorgängen zurück zum Stammverzeichnis Ursachen.
- Bessere Änderungsverwaltung durch Auswirkungensanalyse: Vermeiden Sie Ausfallzeiten oder unerwartete Fehler, verstehen Sie abhängige Einträge und arbeiten Sie mit relevanten Stakeholdern zusammen.
Informationsmodell für Datenreihen
In seiner Grundform ist die Herkunftsermittlung ein Datensatz, der Daten enthält, die von Quellen in Ziele transformiert werden. Die Data Lineage API erhebt diese Informationen und organisiert sie in einem hierarchischen Datenmodell unter Verwendung der Konzepte von Prozessen, Läufe und Ereignisse.
Prozess
Ein Prozess ist die Definition eines Datentransformationsvorgangs, der für
einem bestimmten System. Im Kontext der BigQuery-Lineage
process
gehört zu den unterstützten Jobtypen.
Ausführen
Ausführung ist die Ausführung eines Prozesses. Prozesse können mehrere Ausführungen haben.
Ausführungen enthalten Details wie Start- und Endzeiten, Status oder zusätzliche Attribute.
Weitere Informationen finden Sie in der Referenz zu run
.
Ereignis
Ein Ereignis stellt einen Zeitpunkt dar, zu dem ein Datentransformationsvorgang stattgefunden hat und zu einer Übertragung von Daten zwischen einer Quell- und einer Zielentität geführt hat.
Ereignisse enthalten eine Liste von Links, die definieren, welcher Eintrag die Quelle war und das Ziel eines bestimmten Ereignisses war. Während Ereignisse für die Berechnung Grafiken zur Visualisierung der Herkunft, die nicht direkt in der Google Cloud Console angezeigt werden. Sie können sie mit der Data Lineage API erstellen, lesen und löschen (aber nicht aktualisieren).
Beispiel
Im folgenden Beispiel werden Daten zwischen BigQuery-Tabellen kopiert:
Wie Daten zwischen den Tabellen verschoben werden, wird durch den Lineage-Prozess beschrieben.
(in der Grafik durch die
icon): Das kann eine CREATE TABLE AS SELECT
-SQL-Abfrage oder eine INSERT
-Anweisung sein.
Jede Ausführung dieser SQL-Anweisung stellt einen einzelnen Durchlauf dar.
Ausführungen enthalten Ereignisse, mit denen aufgezeichnet wird, welche Tabellen als Quellen und
die als Ziele verwendet werden. In diesem Beispiel sind die Tabellen
customer_year
und customers
sind beides die Quelle.
für die Zieltabelle top_customer
.
Grafik zur Visualisierung der Herkunft
In Stammbaumdiagrammen werden Informationen dargestellt, die von der Data Lineage API für einen bestimmten Data Catalog-Eintrag erfasst wurden. Root verweist auf den Eintrag, den Sie erstellen. für die die Herkunft der Herkunft angezeigt wird.
Dataplex verwendet die Data Lineage API, um Einträge zu identifizieren, Der voll qualifizierte Name stimmt mit Entitäten überein, die von der Data-Lineage erkannt werden. Für übereinstimmende Dataplex-Einträge können Sie auf die Lineage zugreifen auf der Detailseite und sehen sich die Grafik an.
Lineage-Diagramme enthalten zwei Arten von Elementen:
Breite, rechteckige Schaltflächen, die Entitäten darstellen, die beim Erstellen von Informationen zur Zugehörigkeit als Quellen oder Ziele eines Ereignisses zur Zugehörigkeit beteiligt sind.
Kleinere, quadratische Schaltflächen, die Prozesse darstellen, die für die Erstellung oder Aktualisieren der Quell- oder Zielentitäten. Für die Prozessschaltflächen werden Symbole spezifisch für das Quellsystem, das sie an die Data Lineage API gemeldet hat. BigQuery-Jobs verwenden beispielsweise die Methode -Symbol.
Listenansicht für Lineage
In der Listenansicht der Herkunft werden detaillierte Informationen zur Herkunft von Entitäten in einer einzelnen Tabelle angezeigt.
Im Vergleich zum Herkunftsvisualisierungsdiagramm, das sich besser für relativ kleine Herkunftsdiagramme eignet, können Sie in der Herkunftslistenansicht Herkunftsinformationen für Entitäten mit vielen Verbindungen aufrufen.
Die folgende Abbildung zeigt ein Beispiel für die Listenansicht der Abfolge in der Google Cloud Console. In der folgenden Liste wird das Bild ausführlicher beschrieben. Details.
Jede Zeile in der Tabelle stellt eine einzelne Herkunftsverknüpfung zwischen zwei Einträgen dar. Im Diagramm werden diese Namen als Herkunftsverbindungen zwischen zwei einschließlich aller dazwischen liegenden Prozessknoten. Beispielsweise sind
Source
undTarget
Asset-Knoten, zwischen denen sich möglicherweise mehrere Prozessknoten befinden.Die Option Richtung gibt den Teil des Datenflusses an, der in der in Bezug auf das Stamm-Asset:
Upstream: Hier werden Informationen zur Herkunft für Einträge angezeigt, die Datenquellen für den ausgewählten Eintrag sind. Im Stammbaumdiagramm sind dies die Einträge, die links vom ausgewählten Eintrag angezeigt werden.
Downstream: Zeigt die Herkunftsinformationen für Einträge an, die aus dem ausgewählten Eintrag abgeleitet wird. Im Stammbaumdiagramm sind dies die Einträge, die rechts neben dem ausgewählten Eintrag angezeigt werden.
Die Tiefe gibt an, wie weit eine Quell- oder abgeleitete Ressource von der Stammressource entfernt ist. In der Listenansicht werden bis zu 1.000 Abstammungslinks angezeigt, wobei die maximale Tiefe von der Stammressource 10 Abstammungslinks beträgt. Wenn es Abstammungen außerhalb dieses Bereichs gibt, werden Sie benachrichtigt. Sie können sich die Abfolge außerhalb dieses Bereichs ansehen, indem Sie in der Listenansicht den Namen einer anderen Entität auswählen.
Im Bereich Details werden Informationen zur Quelle des Links, dem Ziel und für alle Prozesse, die diesen Link erstellt haben.
Sie können anpassen, welche Spalten in der Tabelle angezeigt werden, und die Spalten Ergebnisse. Sie können die Ergebnisse auch in eine CSV-Datei exportieren.
Automatisches Tracking der Datenherkunft
Wenn Sie die Data Lineage API aktivieren, melden Google Cloud-Systeme, die die Datenabfolge unterstützen, ihre Datenbewegungen. Jedes integrierte System kann Herkunftsinformationen für Daten aus einem anderen Bereich. In den folgenden Abschnitten finden Sie weitere Informationen zu unterstützt.
BigQuery
Wenn Sie die Herkunft der Daten in Ihrem BigQuery-Projekt aktivieren, zeichnet Dataplex automatisch die Herkunftsinformationen für Folgendes auf:
- Neue Tabellen infolge der folgenden BigQuery-Jobs:
- Kopierjobs
- Load-Jobs, die die Klasse Cloud Storage-URI zum Laden von Daten in einem beliebigen zulässigen Format aus Cloud Storage*
- Abfragejobs, die die folgende DDL-Anweisung (Data Definition Language) in Google Standard-SQL verwenden:
- Vorhandene Tabellen, die durch die Verwendung der folgenden DML-Anweisungen (Data Manipulation Language) in Google Standard-SQL erstellt wurden:
- AUSWÄHLEN in Bezug auf einen der aufgeführten Tabellentypen:
- AUSWAHL EINFÜGEN
- MERGE
- AKTUALISIEREN
- LÖSCHEN
BigQuery-Kopie-, Abfrage- und Ladejobs werden als Prozesse dargestellt. Klicken Sie im Grafikdiagramm für die Abstammungsvisualisierung auf das Lupensymbol , um Prozessdetails aufzurufen. Jeder Prozess enthält die BigQuery-job_id. in der attributes Liste für den letzten BigQuery-Job.
Weitere Dienste
Die Datenherkunft unterstützt die Einbindung in die folgenden Google Cloud-Dienste:
Data Lineage für benutzerdefinierte Datenquellen
Mit der Data Lineage API in Dataplex können Sie Herkunftsinformationen für jede Datenquelle manuell erfassen, die von den integrierten Systemen nicht unterstützt wird.
In Dataplex können Visualisierungsgrafiken für manuell aufgezeichnete Abfolgen erstellt werden, wenn Sie eine fullyQualifiedNames
verwenden, die mit den vollständig qualifizierten Namen vorhandener Data Catalog-Einträge übereinstimmt. Wenn Sie
Herkunft für eine benutzerdefinierte Datenquelle verwenden möchten, erstellen Sie zuerst eine
benutzerdefinierten Data Catalog-Eintrag.
Jeder Prozess für eine benutzerdefinierte Datenquelle kann in den Attributen sql
-Schlüssel enthalten
Liste. Der Wert eines solchen Schlüssels wird verwendet, um die Codehervorhebung im Detail zu rendern
des Data-Lineage-Diagramms. SQL-Anweisung wird so angezeigt, wie sie war
bereitgestellt. Der Nutzer ist dafür verantwortlich, vertrauliche Informationen herauszufiltern. Die
Beim Schlüsselnamen sql
wird zwischen Groß- und Kleinschreibung unterschieden.
OpenLineage
Wenn Sie bereits OpenLineage verwenden, um Informationen zur Herkunft aus anderen Datenquellen zu erfassen, können Sie OpenLineage-Ereignisse in Dataplex importieren und diese Ereignisse in der Google Cloud Console anzeigen. Weitere Informationen finden Sie unter In OpenLineage einbinden
Beschränkungen
- Alle Informationen zur Herkunft werden nur 30 Tage lang im System gespeichert.
- Informationen zur Herkunft bleiben erhalten, nachdem Sie die zugehörige Datenquelle entfernt haben. Das heißt, wenn Sie eine BigQuery-Tabelle und ihren Data Catalog entfernen können Sie die Herkunft für diese Tabelle mit der API noch bis zu 30 Tage:
Auf Datenherkunft zugreifen
Sie können auf Data Lineage-Funktionen zugreifen:
- Seiten mit Eintragsdetails in der Dataplex-Benutzeroberfläche in der Google Cloud Console Weitere Informationen finden Sie unter Herkunftsdiagramme ansehen.
- Seite mit Tabellendetails in der BigQuery-Benutzeroberfläche in der Google Cloud Console Weitere Informationen finden Sie unter Herkunftsdiagramme ansehen.
- Seiten „Dataset“ und „Model Registry“ in der Vertex AI-Benutzeroberfläche in der Google Cloud Console Siehe Herkunftsdiagramme ansehen.
- Data Lineage API
Preise
Bei Dataplex wird die SKU für die Premium-Verarbeitung verwendet, um die Datenherkunft in Rechnung zu stellen. Weitere Informationen finden Sie unter Preise.
Um Gebühren für Data Lineage von anderen Gebühren in der SKU für die Dataplex-Premium-Verarbeitung in der Cloud Billing-Bericht, verwenden Sie das Label
goog-dataplex-workload-type
mit dem WertLINEAGE
.Wenn Sie die Data Lineage API
Origin
sourceType
mit einem anderen Wert alsCUSTOM
aufrufen, können zusätzliche Kosten anfallen.
Nächste Schritte
Weitere Informationen zur Verwendung der Datenherkunft mit Google Cloud-Systemen
Informationen zur Verwaltung finden Sie in den aktualisierten IAM-Abschnitten, in den Hinweisen zur Datenherkunft und im Hilfeartikel Audit-Logging für die Datenherkunft.