Diese Seite wurde von der Cloud Translation API übersetzt.

Datenherkunft für eine BigQuery-Tabelle verfolgen

Datenherkunft können Sie verfolgen, wie sich Daten durch Ihre Systeme bewegen: woher sie kommen, wo und welche Transformationen darauf angewendet werden.

Hier erfahren Sie, wie Sie die Datenherkunft für BigQuery-Kopier- und Abfragejobs:

Zwei Tabellen aus einem öffentlich verfügbaren Dataset new_york_taxi_trips kopieren.
Kombinieren Sie die Gesamtzahl der Taxifahrten aus beiden Tabellen in einer neuen Tabelle.
Diagramm zur Visualisierung der Herkunft für alle drei Vorgänge aufrufen

Hinweise

Projekt einrichten:

Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

Data Catalog, BigQuery, and data lineage APIs aktivieren.

Aktivieren Sie die APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

Data Catalog, BigQuery, and data lineage APIs aktivieren.

Aktivieren Sie die APIs

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Diagrammen zur Herkunftsvisualisierung benötigen:

Data Catalog-Betrachter (roles/datacatalog.viewer) für das Data Catalog-Ressourcenprojekt
Data Lineage Viewer (roles/datalineage.viewer) für das Projekt, in dem Sie BigQuery verwenden,
BigQuery-Datenbetrachter (roles/bigquery.dataViewer) für das Projekt, in dem Sie BigQuery verwenden,

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Öffentliches Dataset zum Projekt hinzufügen

Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

BigQuery aufrufen
Klicken Sie im Bereich Explorer auf Hinzufügen.
Suchen Sie im Bereich Hinzufügen nach Public datasets und wählen Sie Ergebnis Öffentliche Datasets.
Suchen Sie im Bereich Marktplatz nach NYC TLC Trips und klicken Sie auf Ergebnis NYC TLC Trips.
Klicken Sie auf Dataset aufrufen.

Mit diesem Schritt wird Ihrem Projekt das Dataset new_york_taxi_trips hinzugefügt. Details zeigt die Dataset-Informationen an, einschließlich Informationen wie Dataset-ID, Speicherort der Daten und Datum der letzten Änderung:

Dataset in Ihrem Projekt erstellen

Wählen Sie im Bereich Explorer das Projekt aus, in dem Sie die Datei erstellen möchten. Dataset.
Klicken Sie auf das Aktionssymbol und dann auf Erstellen. Dataset.
Geben Sie auf der Seite Dataset erstellen im Feld Dataset-ID Folgendes ein: data_lineage_demo Übernehmen Sie für alle anderen Felder die Standardwerte.
Klicken Sie auf Dataset erstellen.
Klicken Sie im Bereich Explorer auf das neu hinzugefügte data_lineage_demo.

Im Detailbereich werden die Dataset-Informationen angezeigt.

Zwei öffentlich zugängliche Tabellen in Ihr Dataset kopieren

Abfrageeditor öffnen: Klicken Sie im Detailbereich neben dem Tab mit dem Namen data_lineage_demo, klicken Sie auf (Neue Abfrage erstellen). In diesem Schritt wird ein Tab namens Untitled erstellt.
Kopieren Sie im Abfrageeditor die erste Tabelle, indem Sie Folgendes eingeben: Abfrage. Ersetzen Sie PROJECT_ID durch den Wert Ihres Projekts Kennzeichnung.
```
CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
```
Klicken Sie auf Ausführen. Dieser Schritt erstellt die erste Tabelle mit dem Namen nyc_green_trips_2021.
Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. Dieser Schritt zeigt der ersten Tabelle.
Kopieren Sie im Abfrageeditor die zweite Tabelle, indem Sie die vorherige mit der folgenden Abfrage. Ersetzen Sie PROJECT_ID durch Ihren des Projekts Kennzeichnung.
```
CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
```
Klicken Sie auf Ausführen. Dieser Schritt erstellt die zweite Tabelle mit dem Namen nyc_green_trips_2022.
Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. Dieser Schritt zeigt den Inhalt der zweiten Tabelle.

Daten in einer neuen Tabelle aggregieren

Geben Sie im Abfrageeditor die folgende Abfrage ein. PROJECT_ID ersetzen durch Ihres Projekts Kennzeichnung.

CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
AS SELECT vendor_id, COUNT(*) AS number_of_trips
FROM (
     SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
     UNION ALL
     SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
)
GROUP BY vendor_id

Klicken Sie auf Ausführen. Dieser Schritt erstellt eine kombinierte Tabelle namens total_green_trips_22_21.
Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. Dieser Schritt zeigt kombinierte Tabelle.

Lineage-Diagramm in Dataplex ansehen

Öffnen Sie die Dataplex-Suchseite.
Dataplex-Suche öffnen
Wählen Sie unter Suchplattform auswählen die Option Data Catalog als Suchmodus aus.
Geben Sie total_green_trips_22_21 in das Suchfeld ein und klicken Sie auf Suchen.
Klicken Sie in der Ergebnisliste auf total_green_trips_22_21. Dieser Schritt zeigt der BigQuery-Tabelle auf dem Tab Details.
Klicken Sie auf den Tab Lineage (Herkunft).

Screenshot der Tabelle „total_green_trips_22_21“ mit unten angedocktem Detailbereich. — **Abbildung 1**: Data Lineage mit Knotendetails

Im Herkunftsdiagramm stellt jeder rechteckige Knoten eine Tabelle dar, entweder ein Original-, Kopier- oder kombinierte Tabelle. In diesem Fall können Sie folgende Aktionen ausführen:

Sie können den Ursprung einer Tabelle ein- oder ausblenden, indem Sie auf + (Maximieren) oder - klicken. (Minimieren).
Tabelleninformationen durch Klicken auf einen Knoten anzeigen. Bei diesem Schritt wird ein Knoten Details:
Prozessinformationen durch Klicken auf einblenden Prozesssymbol. Bei diesem Schritt wird im Bereich Details eines Prozesses der Job angezeigt. die eine Quelltabelle in eine Zieltabelle transformiert.

Screenshot der dazwischenliegenden Tabelle „nyc_green_trips_2021“ mit unten angedocktem Detailbereich. — **Abbildung 2.** Data Lineage mit Prozessdetails

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, z. B. eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, statt das gesamte Projekt.

Wenn Sie mehrere Architekturen, Anleitungen und Kurzanleitungen durcharbeiten möchten, können Sie die Überschreitung von Projektkontingenten verhindern, indem Sie Projekte wiederverwenden.

Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.
Zur Seite „Ressourcen verwalten“
Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Dataset löschen

Wechseln Sie zur BigQuery-Seite.

BigQuery aufrufen
Suchen Sie im Bereich Explorer nach dem Dataset data_lineage_demo, erstellt.
Klicken Sie mit der rechten Maustaste auf das Dataset und wählen Sie Löschen aus.
Bestätigen Sie die Löschaktion.

Nächste Schritte

Weitere Informationen zu Dataplex und Data Lineage.
BigQuery ausführen abfragen.
Weitere Informationen zur Verwendung Data Lineage und Ansicht Data Lineage Grafiken.
Informationen zu Dataplex-Preisen und billing.