Datenherkunft mit Google Cloud-Systemen verwenden

Die Datenherkunft zeigt die Beziehungen zwischen den Ressourcen Ihres Projekts und den Prozessen, mit denen sie erstellt wurden.

Sie können Informationen zum Datenursprung in der Google Cloud -Konsole in den folgenden Formen ansehen:

  • Lineage-Diagramm: Hier wird die Lineage angezeigt, die sich vor oder nach einem einzelnen Stamm-Eintrag befindet. Weitere Informationen finden Sie unter Lineage-Diagramm.
  • Visualisierung des Herkunftspfads (Vorabversion): Zeigt die Herkunftsverknüpfungen zwischen zwei ausgewählten Ressourcen. Weitere Informationen finden Sie unter Visualisierung des Lineage-Pfads.
  • Listenansicht für Datenherkunft (Vorabversion): Hier werden detaillierte Informationen zur Datenherkunft für Ressourcen in einer einzelnen Tabelle angezeigt, die auch Informationen zur Datenherkunft für Ressourcen mit vielen Verbindungen enthält. Weitere Informationen finden Sie unter Lineage-Listenansicht.

Sie können auch Herkunftsinformationen aus der Data Lineage API in Form von JSON-Daten abrufen.

Der Datenursprung wird projektübergreifend erfasst. Wenn Sie den aus mehreren Projekten generierten Lineage-Graphen ansehen, können Sie die aggregierten Lineage-Informationen in einem der relevanten Projekte aufrufen.

Je nach Menge der zu verarbeitenden Daten kann es einige Zeit dauern, bis im Datenursprung ein Diagramm angezeigt wird. Bei den meisten Jobs dauert es drei Stunden, bei einigen kann es bis zu 24 Stunden dauern.

Rollen und Berechtigungen

Wenn Sie Informationen zur Datenherkunft aufrufen möchten, bitten Sie Ihren Administrator, Ihnen Betrachterrollen zuzuweisen, wie unter Vordefinierte Rollen für die Datenherkunft beschrieben. Sie benötigen Zugriff auf das Projekt, in dem Sie den Datenursprung aufrufen, und auf die Projekte, in denen der Datenursprung aufgezeichnet wird.

Dataplex Universal Catalog erfasst automatisch Informationen zur Datenherkunft, wenn Sie die Data Lineage API aktivieren. Sie benötigen keine Administrator- oder Bearbeiterrollen, um den Datenursprung für Ihre Daten-Assets zu erfassen.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten. Sie können eine Rolle auf einer höheren Ordner- oder Organisationsebene zuweisen (siehe Einzelne Rolle zuweisen oder widerrufen).

Datenherkunft aktivieren

Aktivieren Sie die Data Lineage, um automatisch Lineage-Informationen für unterstützte Systeme zu erfassen. Sie müssen die Data Lineage API sowohl in dem Projekt, in dem Sie die Herkunft ansehen, als auch in den Projekten aktivieren, in denen die Herkunft aufgezeichnet wird. Weitere Informationen finden Sie unter Projekttypen.

  1. So erfassen Sie Informationen zur Herkunft:

    1. Wählen Sie in der Google Cloud Console auf der Seite Projektauswahl das Projekt aus, in dem Sie die Herkunft aufzeichnen möchten.

      Zur Projektauswahl

    2. Aktivieren Sie die Data Lineage API.

      Data Lineage API aktivieren

    3. Wiederholen Sie die vorherigen Schritte für jedes Projekt, in dem Sie den Datenursprung erfassen möchten.
  2. Aktivieren Sie im Projekt, in dem Sie die Herkunft ansehen, die Data Lineage API und die Dataplex API.

    APIs aktivieren

Lineage in Dataplex Universal Catalog ansehen

Sie können Informationen zur Datenherkunft in der Weboberfläche von Dataplex Universal Catalog ansehen.

So rufen Sie die Herkunft auf:

  1. Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Suche auf.

    Zur Suche

  2. Wählen Sie Dataplex Universal Catalog als Suchmodus aus.

  3. Suchen Sie nach dem Eintrag, für den Sie Informationen zur Herkunft aufrufen möchten. Weitere Informationen finden Sie unter Nach Ressourcen im Dataplex Universal Catalog suchen.

  4. Wählen Sie auf der Detailseite des Eintrags den Tab Lineage aus.

  5. Klicken Sie auf Graph, um das Herkunftsdiagramm aufzurufen.

    • Wählen Sie die Schaltflächen für den Prozess oder die Datenquelle aus, um den Detailbereich aufzurufen.

    • Wenn Sie Informationen zur Upstream- oder Downstream-Abstammung für eine Ressource aufrufen möchten, klicken Sie auf Maximieren.

  6. Wenn Sie die Herkunft in der Listenansicht sehen möchten, klicken Sie auf Liste.

  7. Wenn Sie die Visualisierung des Herkunftspfads ansehen möchten, klicken Sie auf Liste und wählen Sie dann die Zielressource in der Ergebnistabelle aus. Klicken Sie im Detailbereich auf Ziel und dann auf Lineage visualisieren.

Herkunft in BigQuery ansehen

Sie können Informationen zum Datenursprung in der BigQuery-Web-UI ansehen.

So rufen Sie die Herkunft auf:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    Zur Seite „BigQuery“

  2. Öffnen Sie die Tabelle, für die Sie den Datenursprung sehen möchten.

  3. Klicken Sie auf den Tab Herkunft.

  4. Klicken Sie auf Graph, um das Herkunftsdiagramm aufzurufen.

    • Wählen Sie die Schaltflächen für den Prozess oder die Datenquelle aus, um den Detailbereich aufzurufen.

    • Wenn Sie Informationen zur Upstream- oder Downstream-Abstammung für eine Ressource aufrufen möchten, klicken Sie auf Maximieren.

  5. Wenn Sie die Herkunft in der Listenansicht sehen möchten, klicken Sie auf Liste.

  6. Wenn Sie die Visualisierung des Herkunftspfads ansehen möchten, klicken Sie auf Liste und wählen Sie dann die Zielressource in der Ergebnistabelle aus. Klicken Sie im Detailbereich auf Ziel und dann auf Lineage visualisieren.

Herkunft in Vertex AI ansehen

Systeme wie Vertex AI Pipelines generieren Herkunftsdaten für Vertex AI-Modelle und ‑Datasets. Sie können Informationen zur Datenherkunft in der Vertex AI-Weboberfläche ansehen.

Herkunft für ein verwaltetes Dataset in Vertex AI ansehen

So rufen Sie den Datenursprung für ein Dataset auf:

  1. Rufen Sie in der Google Cloud Console die Seite Datasets auf.

    Seite „Datasets“ öffnen

  2. Klicken Sie auf das Dataset, für das Sie den Datenursprung sehen möchten.

  3. Klicken Sie auf den Tab Herkunft.

  4. Klicken Sie auf Graph, um das Herkunftsdiagramm aufzurufen.

    • Wählen Sie die Schaltflächen für den Prozess oder die Datenquelle aus, um den Detailbereich aufzurufen.

    • Wenn Sie Informationen zur Upstream- oder Downstream-Abstammung für eine Ressource aufrufen möchten, klicken Sie auf Maximieren.

  5. Wenn Sie die Herkunft in der Listenansicht sehen möchten, klicken Sie auf Liste.

  6. Wenn Sie die Visualisierung des Herkunftspfads ansehen möchten, klicken Sie auf Liste und wählen Sie dann die Zielressource in der Ergebnistabelle aus. Klicken Sie im Detailbereich auf Ziel und dann auf Lineage visualisieren.

Herkunft eines Modells in Vertex AI ansehen

So rufen Sie den Datenursprung für ein Modell auf:

  1. Rufen Sie in der Google Cloud Console die Seite Model Registry auf.

    Seite „Model Registry“ öffnen

  2. Klicken Sie auf das Modell, dessen Datenherkunft Sie sich ansehen möchten.

  3. Klicken Sie auf den Tab Herkunft.

  4. Klicken Sie auf Graph, um das Herkunftsdiagramm aufzurufen.

    • Wählen Sie die Schaltflächen für den Prozess oder die Datenquelle aus, um den Detailbereich aufzurufen.

    • Wenn Sie Informationen zur Upstream- oder Downstream-Abstammung für eine Ressource aufrufen möchten, klicken Sie auf Maximieren.

  5. Wenn Sie die Herkunft in der Listenansicht sehen möchten, klicken Sie auf Liste.

  6. Wenn Sie die Visualisierung des Herkunftspfads ansehen möchten, klicken Sie auf Liste und wählen Sie dann die Zielressource in der Ergebnistabelle aus. Klicken Sie im Detailbereich auf Ziel und dann auf Lineage visualisieren.

Nächste Schritte