Diese Seite wurde von der Cloud Translation API übersetzt.

Datenabfolge für eine BigQuery-Tabelle verfolgen

Mit der Datenherkunft können Sie verfolgen, wie sich Daten durch Ihre Systeme bewegen – woher sie kommen, wohin sie übergeben werden und welche Transformationen auf sie angewendet werden.

So beginnen Sie mit dem Erfassen der Datenabfolge für BigQuery-Kopien- und Abfragejobs:

Kopieren Sie zwei Tabellen aus einem öffentlich verfügbaren new_york_taxi_trips-Dataset.
Kombinieren Sie die Gesamtzahl der Taxifahrten aus beiden Tabellen in einer neuen Tabelle.
Ein Stammbaumvisualisierungsdiagramm für alle drei Vorgänge ansehen

Hinweise

Projekt einrichten:

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataplex, BigQuery, and data lineage APIs.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataplex, BigQuery, and data lineage APIs.

Enable the APIs

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Diagrammen zur Herkunftsvisualisierung benötigen:

Dataplex Catalog Viewer (roles/dataplex.catalogViewer) für das Dataplex Catalog-Ressourcenprojekt
Data Lineage-Betrachter (roles/datalineage.viewer) für das Projekt, in dem Sie BigQuery verwenden
BigQuery-Datenbetrachter (roles/bigquery.dataViewer) für das Projekt, in dem Sie BigQuery verwenden

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Ihrem Projekt ein öffentliches Dataset hinzufügen

Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

BigQuery aufrufen
Klicken Sie im Bereich Explorer auf Hinzufügen.
Suchen Sie im Bereich Hinzufügen nach Public datasets und wählen Sie das Ergebnis Öffentliche Datasets aus.
Suchen Sie im Bereich Marketplace nach NYC TLC Trips und klicken Sie auf das Ergebnis NYC TLC Trips.
Klicken Sie auf Dataset aufrufen.

Dadurch wird das Projekt des öffentlichen Datasets als Referenz hinzugefügt, die Sie im Bereich Explorer aufrufen können. Im Detailbereich werden Dataset-Informationen angezeigt, darunter die Dataset-ID, der Speicherort der Daten und das Datum der letzten Änderung.

Dataset in Ihrem Projekt erstellen

Wählen Sie im Bereich Explorer das Projekt aus, in dem Sie das Dataset erstellen möchten.
Klicken Sie auf Aktionen und dann auf Dataset erstellen.
Geben Sie auf der Seite Dataset erstellen im Feld Dataset-ID den Wert data_lineage_demo ein. Übernehmen Sie für alle anderen Felder die Standardwerte.
Klicken Sie auf Dataset erstellen.
Klicken Sie im Bereich Explorer auf die neu hinzugefügte data_lineage_demo.

Im Detailbereich werden die Dataset-Informationen angezeigt.

Zwei öffentlich zugängliche Tabellen in Ihr Dataset kopieren

Öffnen Sie den Abfrageeditor: Klicken Sie im Detailbereich neben dem Tab data_lineage_demo auf (Neue Abfrage erstellen). Dadurch wird ein Tab mit dem Namen Untitled erstellt.

Kopieren Sie im Abfrageeditor die erste Tabelle, indem Sie die folgende Abfrage eingeben. Ersetzen Sie PROJECT_ID durch die ID Ihres Projekts.

CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`

Klicken Sie auf Ausführen. Mit diesem Schritt wird die erste Tabelle namens nyc_green_trips_2021 erstellt.
Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. In diesem Schritt wird der Inhalt der ersten Tabelle angezeigt.
Kopieren Sie im Abfrageeditor die zweite Tabelle, indem Sie die vorherige Abfrage durch die folgende ersetzen: Ersetzen Sie PROJECT_ID durch die ID Ihres Projekts.
```
CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
```
Klicken Sie auf Ausführen. Mit diesem Schritt wird die zweite Tabelle namens nyc_green_trips_2022 erstellt.
Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. In diesem Schritt wird der Inhalt der zweiten Tabelle angezeigt.

Daten in einer neuen Tabelle zusammenfassen

Geben Sie im Abfrageeditor die folgende Abfrage ein. Ersetzen Sie PROJECT_ID durch die ID Ihres Projekts.

CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
AS SELECT vendor_id, COUNT(*) AS number_of_trips
FROM (
     SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
     UNION ALL
     SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
)
GROUP BY vendor_id

Klicken Sie auf Ausführen. Dadurch wird eine kombinierte Tabelle mit dem Namen total_green_trips_22_21 erstellt.
Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. In diesem Schritt wird die kombinierte Tabelle angezeigt.

Herkunftsdiagramm in Dataplex ansehen

Rufen Sie in der Google Cloud Console die Seite der Dataplex-Suche auf.
Zur Suche
Wählen Sie unter Suchplattform auswählen als Suchmodus Dataplex Catalog aus.
Geben Sie total_green_trips_22_21 in das Suchfeld ein und klicken Sie auf Suchen.
Klicken Sie in der Ergebnisliste auf total_green_trips_22_21. In diesem Schritt wird der Tab Details der BigQuery-Tabelle angezeigt.
Klicken Sie auf den Tab Abstammung.

Die Tabelle „total_green_trips_22_21“ mit angedocktem Detailbereich unten — **Abbildung 1** Datenabfolge mit Knotendetails

Im Stammbaumdiagramm steht jeder rechteckige Knoten für eine Tabelle, entweder eine ursprüngliche, kopierte oder kombinierte Tabelle. In diesem Fall können Sie folgende Aktionen ausführen:

Wenn Sie den Ursprung einer Tabelle ein- oder ausblenden möchten, klicken Sie auf + (Maximieren) oder – (Minimieren).
Klicken Sie auf einen Knoten, um Tabelleninformationen aufzurufen. In diesem Schritt wird der Bereich Details für den Knoten angezeigt.
Klicken Sie auf , um Prozessinformationen aufzurufen. In diesem Schritt wird der Bereich Details des Prozesses angezeigt, der eine Quelltabelle in eine Zieltabelle umgewandelt hat.

Die Zwischentabelle „nyc_green_trips_2021“ mit angedocktem Detailbereich unten. — **Abbildung 2.** Data Lineage mit Prozessdetails

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud -Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

Projekt löschen

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, z. B. eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, statt das gesamte Projekt.

Wenn Sie mehrere Architekturen, Anleitungen und Kurzanleitungen durcharbeiten möchten, können Sie die Überschreitung von Projektkontingenten verhindern, indem Sie Projekte wiederverwenden.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Dataset löschen

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen
Suchen Sie im Bereich Explorer nach dem von Ihnen erstellten Datensatz data_lineage_demo.
Klicken Sie mit der rechten Maustaste auf das Dataset und wählen Sie Löschen aus.
Bestätigen Sie den Löschvorgang.

Datenabfolge für eine BigQuery-Tabelle verfolgen

Hinweise

Erforderliche Rollen

Ihrem Projekt ein öffentliches Dataset hinzufügen

Dataset in Ihrem Projekt erstellen

Zwei öffentlich zugängliche Tabellen in Ihr Dataset kopieren

Daten in einer neuen Tabelle zusammenfassen

Herkunftsdiagramm in Dataplex ansehen

Bereinigen

Projekt löschen

Dataset löschen

Nächste Schritte