Risolvere i problemi relativi alla cronologia dei dati

Questo documento descrive come risolvere i problemi relativi alla coerenza dei dati di Data Catalog.

Tipi di progetto

Le risorse di dati possono trovarsi in progetti diversi. Di seguito è riportato un riepilogo dei possibili progetti e dei relativi nomi delle risorse.

Progetto di archiviazione BigQuery

In questo progetto vengono archiviati gli asset di dati BigQuery. Puoi trovarlo nei dettagli della risorsa all'interno di Table ID, prima del primo punto.

Nell'interfaccia utente di BigQuery, il nome del progetto di archiviazione viene visualizzato nel
    campo ID tabella, prima del primo punto nel nome della tabella completo.
Figura 1. Il nome di un progetto di archiviazione BigQuery.

Progetto Compute

Questo progetto memorizza i metadati della struttura dei dati. Per BigQuery, è qui che esegui un job. Se esegui un job utilizzando la console Google Cloud, puoi trovare il nome del progetto di calcolo nel selettore dei progetti:

L'interfaccia utente di BigQuery mostra un progetto di calcolo denominato docs-compute nella pagina in cui esegui le query SQL.
Figura 2. Il nome di un progetto di calcolo che esegue job BigQuery.

Quando invii richieste all'API BigQuery, specifica il progetto di calcolo nell'URL, ad esempio:

POST /bigquery/v2/projects/docs-compute/jobs HTTP/1.1
Host: bigquery.googleapis.com
User-Agent: Go-http-client/1.1
Authorization: <REDACTED 1031 BYTES>
Accept-Encoding: gzip
{
  "configuration": {
    "query": {
      "useLegacySql": false,
      "query": "CREATE OR REPLACE TABLE `docs-target.dataset.target-002` AS SELECT * FROM `docs-source.dataset.source-002`;"
    }
  },
  "jobReference": {
    "projectId": "docs-compute",
    "jobId": "docs-compute-job-id",
    "location": "us",
  }
}

Progetto attivo

Si tratta del progetto da cui stai visualizzando la cronologia dei dati. La console Google Cloud mostra il progetto attivo nel selettore dei progetti. Se utilizzi l'API, il progetto attivo è quello da cui effettui le chiamate all'API.

L&#39;interfaccia utente di BigQuery mostra la cronologia dei dati per un set di dati chiamato source-001, che si trova in un progetto chiamato docs-source.
Figura 3. Il progetto attivo nella console Google Cloud.

La sequenza di BigQuery non viene visualizzata

Il seguente problema si verifica dopo l'esecuzione di un job BigQuery. In questo caso, il problema può essere causato da tre scenari:

Se nella parte inferiore della pagina viene visualizzato il messaggio "Impossibile recuperare la derivazione a causa di autorizzazioni mancanti", significa che non disponi delle autorizzazioni per il progetto attivo. In caso contrario, mancano le autorizzazioni per il progetto di calcolo.

Un grafo di derivazione vuoto.
Figura 4. Esempio di albero non visualizzato nell'interfaccia utente di BigQuery.

Per risolvere il problema, controlla se l'API Data Lineage è abilitata per il progetto Compute Engine. Dopo aver attivato l'API, devi eseguire un job per visualizzare la derivazione dei dati. A seconda del volume e della complessità dei dati elaborati, la visualizzazione della cronologia dei dati può richiedere da 30 minuti fino a 24 ore.

Successivamente, controlla se l'API Data Lineage è abilitata per il progetto attivo.

Quando l'API Data Lineage è abilitata, concedi il ruolo Visualizzatore della struttura dei dati (roles/datalineage.viewer) sia ai progetti active sia a compute.

I metadati di processo BigQuery non vengono visualizzati

Quando apri il riquadro dei dettagli della tabella, si verifica il seguente problema: non vengono visualizzati tutti i dettagli, come l'istruzione SQL o la proprietà Process type. Ciò si verifica anche se la cronologia dei dati viene visualizzata correttamente.

Questo può accadere se non disponi delle autorizzazioni per visualizzare i metadati nel progetto di calcolo.

Esempio:

  • Tabella di origine BigQuery: docs-source.dataset.source-001
  • Tabella di destinazione BigQuery: docs-target.dataset.target-001
  • Genealogia dei dati tra docs-source.dataset.source-001 e docs-target.dataset.target-001 in project di calcolo docs-compute
  • Devi disporre del ruolo Visualizzatore della struttura di dati per i progetti docs-compute Compute e attivi.

Se fai clic sui dettagli della procedura BigQuery, nella console Google Cloud viene visualizzato il seguente messaggio:

You don't have permission to view BigQuery process metadata in project X.
Nell&#39;interfaccia utente di BigQuery, nella scheda Genealogia, il riquadro Dettagli mostra un messaggio di errore.
Figura 5. Esempio di dettagli del processo BigQuery non visualizzati nell'interfaccia utente di BigQuery.

Per risolvere il problema, concedi all'utente l'autorizzazione bigquery.jobs.get (ad esempio inclusa nel ruolo Visualizzatore risorse BigQuery) nel progetto di calcolo.

I dettagli della tabella BigQuery non vengono visualizzati

Il seguente problema si verifica quando apri il riquadro dei dettagli della tabella, che mostra solo la proprietà Fully qualified name. Ciò si verifica anche se la rappresentazione della struttura dei dati è corretta. Questo può accadere se non disponi di tutte le autorizzazioni richieste nei progetti di archiviazione della tabella.

Esempio:

In questo caso, quando fai clic sui dettagli del nodo BigQuery, puoi vedere un messaggio Entry with this fully qualified name is not available in the Data Catalog.

I dettagli della tabella BigQuery non vengono visualizzati.
Figura 6. Esempio di dettagli della tabella BigQuery non visualizzati nell'interfaccia utente di BigQuery.

Per risolvere il problema, concedi le autorizzazioni bigquery.tables.get (ad esempio incluse nel ruolo Visualizzatore dati BigQuery) nel progetto di archiviazione.