Probleme mit der Datenableitung beheben

In diesem Dokument wird beschrieben, wie Sie Probleme mit der Datenherkunft in Data Catalog beheben.

Projekttypen

Daten-Assets können sich in verschiedenen Projekten befinden. Im Folgenden findest du eine Zusammenfassung möglicher Projekte und ihrer Asset-Namen.

BigQuery-Speicherprojekt

In diesem Projekt werden Ihre BigQuery-Daten-Assets gespeichert. Sie finden sie in den Asset-Details als Teil von Table ID vor dem ersten Punkt.

In der BigQuery-Benutzeroberfläche wird der Name des Speicherprojekts im Feld „Tabellen-ID“ vor dem ersten Punkt im voll qualifizierten Tabellennamen angezeigt.
Abbildung 1. Der Name eines BigQuery-Speicherprojekts.

Compute-Projekt

In diesem Projekt werden die Data-Lineage-Metadaten gespeichert. Bei BigQuery wird hier ein Job ausgeführt. Wenn Sie einen Job über die Google Cloud Console ausführen, finden Sie den Namen des Compute-Projekts in der Projektauswahl:

In der BigQuery-Benutzeroberfläche wird auf der Seite, auf der Sie SQL-Abfragen ausführen, ein Rechenprojekt namens „docs-compute“ angezeigt.
Abbildung 2. Der Name eines Compute-Projekts, in dem BigQuery-Jobs ausgeführt werden.

Geben Sie beim Senden von Anfragen an die BigQuery API das Compute-Projekt in der URL an, z. B.:

POST /bigquery/v2/projects/docs-compute/jobs HTTP/1.1
Host: bigquery.googleapis.com
User-Agent: Go-http-client/1.1
Authorization: <REDACTED 1031 BYTES>
Accept-Encoding: gzip
{
  "configuration": {
    "query": {
      "useLegacySql": false,
      "query": "CREATE OR REPLACE TABLE `docs-target.dataset.target-002` AS SELECT * FROM `docs-source.dataset.source-002`;"
    }
  },
  "jobReference": {
    "projectId": "docs-compute",
    "jobId": "docs-compute-job-id",
    "location": "us",
  }
}

Aktives Projekt

Das ist das Projekt, in dem Sie die Datenherkunft aufrufen. In der Google Cloud Console wird das aktive Projekt in der Projektauswahl angezeigt. Wenn Sie die API verwenden, ist das aktive Projekt das Projekt, über das Sie API-Aufrufe ausführen.

Auf der BigQuery-Benutzeroberfläche wird die Datenabfolge für ein Dataset namens „source-001“ angezeigt, das sich in einem Projekt namens „docs-source“ befindet.
Abbildung 3. Das aktive Projekt in der Google Cloud Console.

BigQuery-Datenabstammung wird nicht angezeigt

Nach dem Ausführen eines BigQuery-Jobs tritt das folgende Problem auf. In diesem Fall kann das Problem drei Ursachen haben:

  • Die Data Lineage API ist im aktiven Projekt oder im Compute-Projekt deaktiviert.
  • Sie haben die Rolle Data Lineage-Betrachter (roles/datalineage.viewer) nicht im aktiven oder Compute-Projekt.
  • Die Datenabfolge ist noch nicht eingegangen. Je nach Umfang und Komplexität der verarbeiteten Daten kann es 30 Minuten bis 24 Stunden dauern, bis die Datenabfolge angezeigt wird.

Wenn unten auf der Seite die Meldung „Herkunft konnte aufgrund fehlender Berechtigungen nicht abgerufen werden“ angezeigt wird, fehlen Ihnen Berechtigungen für das aktive Projekt. Andernfalls fehlen Ihnen Berechtigungen für das Compute-Projekt.

Ein leeres Stammbaumdiagramm.
Abbildung 4. Beispiel für eine Abfolge, die in der BigQuery-Benutzeroberfläche nicht angezeigt wird

Prüfen Sie zur Behebung dieses Problems, ob die Data Lineage API für das Compute-Projekt aktiviert ist. Nachdem Sie die API aktiviert haben, müssen Sie einen Job ausführen, um die Datenherkunft zu sehen. Je nach Umfang und Komplexität der verarbeiteten Daten kann es 30 Minuten bis 24 Stunden dauern, bis die Datenabfolge angezeigt wird.

Prüfen Sie als Nächstes, ob die Data Lineage API für das aktive Projekt aktiviert ist.

Wenn die Data Lineage API aktiviert ist, gewähren Sie dem Data Lineage-Betrachter (roles/datalineage.viewer) Zugriff sowohl auf das active- als auch auf das compute-Projekt.

BigQuery-Prozessmetadaten werden nicht angezeigt

Das folgende Problem tritt auf, wenn Sie den Detailbereich der Tabelle öffnen, in dem nicht alle Details wie die SQL-Anweisung oder die Process type-Property angezeigt werden. Das passiert, obwohl die Datenabfolge korrekt angezeigt wird.

Das kann passieren, wenn Sie nicht berechtigt sind, Metadaten im Compute-Projekt aufzurufen.

Beispiel:

  • BigQuery-Quelltabelle: docs-source.dataset.source-001
  • BigQuery-Zieltabelle: docs-target.dataset.target-001
  • Datenabfolge zwischen docs-source.dataset.source-001 und docs-target.dataset.target-001 im Rechenprojekt docs-compute
  • Sie haben die Rolle Data Lineage-Betrachter für docs-compute-Projekte vom Typ aktiv und Compute.

Wenn Sie auf die BigQuery-Prozessdetails klicken, wird in der Google Cloud Console die folgende Meldung angezeigt:

You don't have permission to view BigQuery process metadata in project X.
In der BigQuery-Benutzeroberfläche wird auf dem Tab „Linie“ im Bereich „Details“ eine Fehlermeldung angezeigt.
Abbildung 5. Beispiel für BigQuery-Prozessdetails, die nicht in der BigQuery-Benutzeroberfläche angezeigt werden

Um dieses Problem zu beheben, gewähren Sie dem Nutzer die Berechtigung bigquery.jobs.get (z. B. in der Rolle BigQuery-Ressourcenbetrachter enthalten) im Compute-Projekt.

BigQuery-Tabellendetails werden nicht angezeigt

Das folgende Problem tritt auf, wenn Sie den Detailbereich der Tabelle öffnen, in dem nur die Property Fully qualified name angezeigt wird. Das passiert, obwohl die Datenabfolge korrekt angezeigt wird. Das kann passieren, wenn Sie nicht über alle erforderlichen Berechtigungen in den Speicherprojekten der Tabelle verfügen.

Beispiel:

  • BigQuery-Tabelle docs-source.dataset.source-001
  • BigQuery-Tabelle docs-target.dataset.target-001
  • Datenabfolge zwischen docs-source.dataset.source-001 und docs-target.dataset.target-001 mit Berechnungsprojekt docs-compute
  • Sie haben die Rolle Data Lineage-Betrachter für die Projekte docs-compute aktiv und compute.

In diesem Fall wird beim Klicken auf die BigQuery-Knotendetails eine Meldung Entry with this fully qualified name is not available in the Data Catalog angezeigt.

Die BigQuery-Tabellendetails werden nicht angezeigt.
Abbildung 6: Beispiel für BigQuery-Tabellendetails, die nicht in der BigQuery-Benutzeroberfläche angezeigt werden

Um dieses Problem zu beheben, gewähren Sie bigquery.tables.get die Berechtigungen, die beispielsweise in der Rolle BigQuery-Datenbetrachter enthalten sind, im Speicherprojekt.