Datenherkunft für eine BigQuery-Tabelle verfolgen
Datenherkunft können Sie verfolgen, wie sich Daten durch Ihre Systeme bewegen: woher sie kommen, wo und welche Transformationen darauf angewendet werden.
So beginnen Sie mit dem Erfassen der Datenabfolge für BigQuery-Kopier- und Abfragejobs:
Kopieren Sie zwei Tabellen aus einem öffentlich verfügbaren
new_york_taxi_trips
-Dataset.Kombinieren Sie die Gesamtzahl der Taxifahrten aus beiden Tabellen in einer neuen Tabelle.
Ein Stammbaumvisualisierungsdiagramm für alle drei Vorgänge ansehen
Hinweis
Projekt einrichten:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Enable the Data Catalog, BigQuery, and data lineage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Enable the Data Catalog, BigQuery, and data lineage APIs.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Diagrammen zur Herkunftsvisualisierung benötigen:
-
Data Catalog-Betrachter (
roles/datacatalog.viewer
) für das Data Catalog-Ressourcenprojekt -
Data Lineage Viewer (
roles/datalineage.viewer
) für das Projekt, in dem Sie BigQuery verwenden, -
BigQuery-Datenbetrachter (
roles/bigquery.dataViewer
) für das Projekt, in dem Sie BigQuery verwenden,
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Öffentliches Dataset zum Projekt hinzufügen
Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.
Klicken Sie im Bereich Explorer auf Hinzufügen.
Suchen Sie im Bereich Hinzufügen nach
Public datasets
und wählen Sie das Ergebnis Öffentliche Datasets aus.Suchen Sie im Bereich Marketplace nach
NYC TLC Trips
und klicken Sie auf das Ergebnis NYC TLC-Fahrten.Klicken Sie auf Dataset aufrufen.
In diesem Schritt wird Ihrem Projekt das Dataset new_york_taxi_trips hinzugefügt. Im Detailbereich werden Dataset-Informationen angezeigt, darunter die Dataset-ID, der Speicherort der Daten und das Datum der letzten Änderung.
Dataset in Ihrem Projekt erstellen
Wählen Sie im Bereich Explorer das Projekt aus, in dem Sie das Dataset erstellen möchten.
Klicken Sie auf das Symbol
Aktionen und dann auf Dataset erstellen.Geben Sie auf der Seite Dataset erstellen im Feld Dataset-ID Folgendes ein:
data_lineage_demo
Übernehmen Sie für alle anderen Felder die Standardwerte.Klicken Sie auf Dataset erstellen.
Klicken Sie im Bereich Explorer auf die neu hinzugefügte
data_lineage_demo
.
Im Detailbereich werden die Dataset-Informationen angezeigt.
Zwei öffentlich zugängliche Tabellen in Ihr Dataset kopieren
Öffnen Sie den Abfrageeditor: Klicken Sie im Detailbereich neben dem Tab
data_lineage_demo
auf (Neue Abfrage erstellen). Dadurch wird ein Tab mit dem NamenUntitled
erstellt.Kopieren Sie im Abfrageeditor die erste Tabelle, indem Sie Folgendes eingeben: Abfrage. Ersetzen Sie
PROJECT_ID
durch die ID Ihres Projekts.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
Klicken Sie auf
Ausführen. Dieser Schritt erstellt die erste Tabelle mit dem Namennyc_green_trips_2021
.Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. Dieser Schritt zeigt der ersten Tabelle.
Kopieren Sie im Abfrageeditor die zweite Tabelle, indem Sie die vorherige Abfrage durch die folgende ersetzen. Ersetzen Sie
PROJECT_ID
durch Ihren des Projekts Kennzeichnung.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
Klicken Sie auf
Ausführen. Mit diesem Schritt wird die zweite Tabelle namensnyc_green_trips_2022
erstellt.Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. In diesem Schritt wird der Inhalt der zweiten Tabelle angezeigt.
Daten in einer neuen Tabelle zusammenfassen
Geben Sie im Abfrageeditor die folgende Abfrage ein.
PROJECT_ID
ersetzen durch Ihres Projekts Kennzeichnung.CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
Klicken Sie auf
Ausführen. Dadurch wird eine kombinierte Tabelle mit dem Namentotal_green_trips_22_21
erstellt.Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. In diesem Schritt wird die kombinierte Tabelle angezeigt.
Herkunftsdiagramm in Dataplex aufrufen
Öffnen Sie die Seite „Dataplex Search“.
Wählen Sie unter Suchplattform auswählen als Suchmodus Data Catalog aus.
Geben Sie
total_green_trips_22_21
in das Suchfeld ein und klicken Sie auf Suchen.Klicken Sie in der Ergebnisliste auf
total_green_trips_22_21
. In diesem Schritt wird der Tab Details der BigQuery-Tabelle angezeigt.Klicken Sie auf den Tab Lineage (Herkunft).
Im Stammbaumdiagramm steht jeder rechteckige Knoten für eine Tabelle, entweder eine ursprüngliche, kopierte oder kombinierte Tabelle. In diesem Fall können Sie folgende Aktionen ausführen:
Sie können den Ursprung einer Tabelle ein- oder ausblenden, indem Sie auf + (Maximieren) oder – (Minimieren) klicken.
Tabelleninformationen durch Klicken auf einen Knoten anzeigen. In diesem Schritt wird der Bereich Details für den Knoten angezeigt.
Klicken Sie auf ein Prozesssymbol , um Prozessinformationen aufzurufen. Bei diesem Schritt wird im Bereich Details eines Prozesses der Job angezeigt. die eine Quelltabelle in eine Zieltabelle transformiert.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:
Projekt löschen
Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.
So löschen Sie das Projekt:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Dataset löschen
Wechseln Sie zur BigQuery-Seite.
Suchen Sie im Bereich Explorer nach dem Dataset
data_lineage_demo
, erstellt.Klicken Sie mit der rechten Maustaste auf das Dataset und wählen Sie Löschen aus.
Bestätigen Sie den Löschvorgang.
Nächste Schritte
- Weitere Informationen zu Dataplex und Data Lineage.
- Weitere Informationen zum Ausführen von BigQuery-Abfragen
- Weitere Informationen zur Verwendung Data Lineage und Ansicht Data Lineage Grafiken.
- Informationen zu Dataplex-Preisen und Abrechnung.