Data-Lineage für eine BigQuery-Tabelle verfolgen

Mit Data Lineage können Sie verfolgen, wie sich Daten durch Ihre Systeme bewegen: woher sie kommen, wohin sie übergeben werden und welche Transformationen auf sie angewendet werden.

Erste Schritte beim Tracking der Data-Lineage für BigQuery-Kopier- und Abfragejobs:

  1. Kopieren Sie zwei Tabellen aus einem öffentlich verfügbaren Dataset new_york_taxi_trips.

  2. Fassen Sie die Gesamtzahl der Taxifahrten aus beiden Tabellen in einer neuen Tabelle zusammen.

  3. Visualisierungsdiagramm der Herkunft für alle drei Vorgänge ansehen.

Hinweise

Projekt einrichten:

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. Data Catalog, BigQuery, and data lineage APIs aktivieren.

    Aktivieren Sie die APIs

  5. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  6. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  7. Data Catalog, BigQuery, and data lineage APIs aktivieren.

    Aktivieren Sie die APIs

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Herkunftsvisualisierungsdiagrammen benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Möglicherweise können Sie die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Öffentliches Dataset zum Projekt hinzufügen

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

    BigQuery aufrufen

  2. Klicken Sie im Bereich Explorer auf Hinzufügen.

  3. Suchen Sie im Bereich Hinzufügen nach Public datasets und wählen Sie das Ergebnis Öffentliche Datasets aus.

  4. Suchen Sie im Bereich Marketplace nach NYC TLC Trips und klicken Sie auf das Ergebnis NYC TLC Trips.

  5. Klicken Sie auf Dataset aufrufen.

In diesem Schritt wird Ihrem Projekt das Dataset new_york_taxi_trips hinzugefügt. Der Detailbereich enthält die Dataset-Informationen, einschließlich Informationen wie Dataset-ID, Speicherort der Daten und Datum unter Zuletzt geändert.

Dataset im Projekt erstellen

  1. Wählen Sie im Bereich Explorer das Projekt aus, in dem Sie das Dataset erstellen möchten.

  2. Klicken Sie auf das Symbol Aktionen und dann auf Dataset erstellen.

  3. Geben Sie auf der Seite Dataset erstellen im Feld Dataset-ID Folgendes ein: data_lineage_demo. Übernehmen Sie für alle anderen Felder die Standardwerte.

  4. Klicken Sie auf Dataset erstellen.

  5. Klicken Sie im Bereich Explorer auf das neu hinzugefügte data_lineage_demo.

Im Detailbereich werden die zugehörigen Dataset-Informationen angezeigt.

Zwei öffentlich zugängliche Tabellen in ein Dataset kopieren

  1. Abfrageeditor öffnen: Klicken Sie im Detailbereich neben dem Tab data_lineage_demo auf (Neue Abfrage erstellen). Mit diesem Schritt wird ein Tab namens Untitled erstellt.

  2. Kopieren Sie im Abfrageeditor die erste Tabelle, indem Sie die folgende Abfrage eingeben. Ersetzen Sie PROJECT_ID durch die ID Ihres Projekts.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Klicken Sie auf Ausführen. In diesem Schritt wird die erste Tabelle mit dem Namen nyc_green_trips_2021 erstellt.

  4. Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. In diesem Schritt wird der Inhalt der ersten Tabelle angezeigt.

  5. Kopieren Sie im Abfrageeditor die zweite Tabelle. Ersetzen Sie dazu die vorherige Abfrage durch die folgende Abfrage. Ersetzen Sie PROJECT_ID durch die ID Ihres Projekts.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Klicken Sie auf Ausführen. In diesem Schritt wird die zweite Tabelle mit dem Namen nyc_green_trips_2022 erstellt.

  7. Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. In diesem Schritt wird der Inhalt der zweiten Tabelle angezeigt.

Daten in einer neuen Tabelle aggregieren

  1. Geben Sie im Abfrageeditor die folgende Abfrage ein. Ersetzen Sie PROJECT_ID durch die ID Ihres Projekts.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Klicken Sie auf Ausführen. In diesem Schritt wird eine kombinierte Tabelle mit dem Namen total_green_trips_22_21 erstellt.

  3. Klicken Sie im Bereich Abfrageergebnisse auf Zur Tabelle. In diesem Schritt wird die kombinierte Tabelle angezeigt.

Herkunftsdiagramm in Dataplex ansehen

  1. Öffnen Sie die Dataplex-Suchseite.

    Dataplex-Suche öffnen

  2. Geben Sie total_green_trips_22_21 in das Suchfeld ein und klicken Sie auf Suchen.

  3. Klicken Sie in der Ergebnisliste auf total_green_trips_22_21. In diesem Schritt wird der Tab Details der BigQuery-Tabelle angezeigt.

  4. Klicken Sie auf den Tab Abstammung.

Screenshot der Tabelle total_green_trips_22_21 mit Detailfenstern unten angedockt.
Abbildung 1: Data Lineage mit Knotendetails

Im Herkunftsdiagramm stellt jeder rechteckige Knoten eine Tabelle dar, entweder eine Original-, eine kopierte oder eine kombinierte Tabelle. In diesem Fall können Sie folgende Aktionen ausführen:

  • Den Ursprung einer Tabelle ein- oder ausblenden, indem Sie auf + (Maximieren) oder - (Minimieren) klicken.

  • Tabelleninformationen durch Klicken auf einen Knoten anzeigen. In diesem Schritt wird ein Knotenbereich Details angezeigt.

  • Klicken Sie auf ein Symbol für Herkunftsprozess-Prozesssymbol, um Prozessinformationen aufzurufen. In diesem Schritt wird der Bereich Details des Prozesses mit dem Job angezeigt, mit dem eine Quelltabelle in eine Zieltabelle umgewandelt wurde.

Screenshot der Zwischentabelle „nyc_green_trips_2021“ mit unten angedockter Detailansicht.
Abbildung 2. Data-Lineage mit Prozessdetails

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Dataset löschen

  1. Wechseln Sie zur BigQuery-Seite.

    BigQuery aufrufen

  2. Suchen Sie im Bereich Explorer nach dem von Ihnen erstellten Dataset data_lineage_demo.

  3. Klicken Sie mit der rechten Maustaste auf das Dataset und wählen Sie Löschen aus.

  4. Bestätigen Sie den Löschvorgang.

Nächste Schritte