Risolvere i problemi di derivazione dei dati

Questa pagina mostra come risolvere i problemi relativi a Data Catalog la derivazione dei dati.

Tipi di progetto

Poiché gli asset di dati possono trovarsi in progetti diversi, ecco un riepilogo dei possibili progetti e i relativi nomi asset.

Progetto di archiviazione BigQuery

Questo progetto archivia gli asset di dati BigQuery. Puoi trovarlo nei dettagli della risorsa all'interno di Table ID, prima del primo punto.

Nell'interfaccia utente di BigQuery, il nome del progetto di archiviazione viene visualizzato nel
    campo ID tabella, prima del primo punto nel nome della tabella completo.
Figura 1. Il nome di un progetto di archiviazione BigQuery.

Progetto Compute

Questo progetto memorizza i metadati della struttura dei dati. Per BigQuery, è qui che esegui un job. Se esegui un job dalla UI, puoi trovare il nome del progetto di computing nel selettore di progetti:

L'interfaccia utente di BigQuery mostra un progetto di calcolo denominato docs-compute nella pagina in cui esegui le query SQL.
Figura 2. Il nome di un progetto di computing che esegue job BigQuery.

Quando invii richieste all'API BigQuery, specifica il progetto di calcolo nell'URL, ad esempio:

POST /bigquery/v2/projects/docs-compute/jobs HTTP/1.1
Host: bigquery.googleapis.com
User-Agent: Go-http-client/1.1
Authorization: <REDACTED 1031 BYTES>
Accept-Encoding: gzip
{
  "configuration": {
    "query": {
      "useLegacySql": false,
      "query": "CREATE OR REPLACE TABLE `docs-target.dataset.target-002` AS SELECT * FROM `docs-source.dataset.source-002`;"
    }
  },
  "jobReference": {
    "projectId": "docs-compute",
    "jobId": "docs-compute-job-id",
    "location": "us",
  }
}

Progetto attivo

Questo è il progetto da cui stai visualizzando la derivazione dei dati. La console Google Cloud mostra il progetto attivo nel selettore dei progetti. Se utilizzi l'API, il progetto attivo è quello da cui effettui le chiamate all'API.

La UI di BigQuery mostra la derivazione dei dati per
    chiamato source-001, che si trova in un progetto chiamato docs-source.
Figura 3. Il progetto attivo nella console Google Cloud.

La sequenza di BigQuery non viene visualizzata

Il seguente problema si verifica dopo l'esecuzione di un job BigQuery. In questo caso il problema può essere causato da tre scenari:

  • L'API Data Lineage è disabilitata nel progetto attivo o il progetto di computing.
  • Non hai Visualizzatore derivazione dati (roles/datalineage.viewer) nel segmento attivo o il progetto compute.
  • La definizione dell'origine dei dati non è ancora stata completata. A seconda del volume e complessità dei dati da elaborare, possono passare da 30 minuti standard a 24 ore per visualizzare la derivazione dei dati.

Se nella parte inferiore della pagina viene visualizzato il messaggio "Impossibile recuperare la derivazione a causa di autorizzazioni mancanti", significa che non disponi delle autorizzazioni per il progetto attivo. In caso contrario, non avrai le autorizzazioni necessarie nella progetto di computing.

Uno screenshot che mostra il grafico della linea di discendenza vuoto.
Figura 4. Esempio di albero non visualizzato nell'interfaccia utente di BigQuery.

Per risolvere il problema, verifica innanzitutto se l'API Data Lineage è abilitata per il progetto di calcolo. Dopo aver attivato l'API, devi eseguire un job per visualizzare la derivazione dei dati. A seconda del volume e della complessità dei dati elaborati, la visualizzazione della cronologia dei dati può richiedere da 30 minuti fino a 24 ore.

Successivamente, controlla se l'API Data Lineage è abilitata per il progetto attivo. Dopo aver abilitato l'API, se disponi delle autorizzazioni necessarie (vedi di seguito), vedrai la derivazione.

Quando l'API Data Lineage è stata abilitata, concedi Visualizzatore derivazione dati (roles/datalineage.viewer) nei pod attivi e il progetto compute.

I metadati di processo BigQuery non vengono visualizzati

Descrizione del problema

Il seguente problema si verifica quando apri il riquadro dei dettagli della tabella, che non mostra tutti i dettagli, come l'istruzione SQL o la proprietà Process type. Ciò si verifica anche se la cronologia dei dati viene visualizzata correttamente.

Questo può accadere se non disponi delle autorizzazioni per visualizzare i metadati nel progetto di calcolo.

Esempio:

  • Tabella di origine BigQuery: docs-source.dataset.source-001
  • Tabella di destinazione BigQuery: docs-target.dataset.target-001
  • Derivazione dei dati tra docs-source.dataset.source-001 e docs-target.dataset.target-001 in progetto di computing docs-compute
  • Devi disporre del ruolo Visualizzatore della struttura di dati per i progetti docs-compute Compute e attivi.

Se fai clic sui dettagli del processo BigQuery, viene visualizzato il seguente messaggio:

You don't have permission to view BigQuery process metadata in project X.

Nella console Google Cloud:

Nell&#39;interfaccia utente di BigQuery, nella scheda Genealogia, il riquadro Dettagli mostra un messaggio di errore.
Figura 5. Esempio di dettagli del processo BigQuery non visualizzati nella UI di BigQuery.

Per risolvere il problema, concedi all'utente l'autorizzazione bigquery.jobs.get (ad esempio incluso in Visualizzatore risorse BigQuery ) nel progetto di computing.

Dettagli della tabella BigQuery non visualizzati

Quando apri il riquadro dei dettagli della tabella, si verifica il seguente problema: viene visualizzata solo la proprietà "Nome completo". Ciò si verifica anche se la rappresentazione della struttura dei dati è corretta. Questo può accadere se non disponi di tutte le autorizzazioni richieste nei progetti di archiviazione della tabella.

Esempio:

  • Tabella BigQuery docs-source.dataset.source-001,
  • Tabella BigQuery docs-target.dataset.target-001,
  • la sequenza dei dati tra docs-source.dataset.source-001 e docs-target.dataset.target-001 con project di calcolo docs-compute,
  • Utente con Visualizzatore derivazione dati Ruolo per il ruolo active e di computing docs-compute.

In questo caso, quando l'utente fa clic sui dettagli del nodo BigQuery, può vedere un messaggioEntry with this fully qualified name is not available in the Data Catalog.

Uno screenshot che mostra il riquadro della tabella vuoto.
Figura 6. Esempio di dettagli di una tabella BigQuery non visualizzati nella UI di BigQuery.

Per risolvere il problema, concedi all'utente le autorizzazioni bigquery.tables.get (ad esempio incluso in Visualizzatore dati BigQuery ) nel progetto di archiviazione.