Informazioni sulla derivazione dei dati

La derivazione dei dati è una funzionalità di Dataplex che consente di monitorare il modo in cui i dati vengono spostati nei sistemi: da dove provengono, dove vengono inviati e a quali trasformazioni sono sottoposti.

Perché hai bisogno della cronologia dei dati?

Gestire set di dati di grandi dimensioni spesso comporta la trasformazione dei dati in entità personalizzate in base alle esigenze di un progetto specifico: file di testo, tabelle, report, dashboard, modelli.

Ad esempio, immagina di avere un negozio online in cui registri ogni acquisto in una singola tabella SQL. Per semplificare il lavoro degli analisti con i dati, inizia a eseguire job che estraggono le informazioni da questa singola tabella e producono tabelle più piccole per regione, marca o prezzo di vendita. Gli analisti poi fanno lo stesso: eseguono ulteriori trasformazioni, unendo queste tabelle più piccole con altre origini dati per produrre ancora più tabelle.

Questo può rappresentare una grande sfida per i tuoi stakeholder:

  • I consumatori di dati non possono utilizzare uno strumento self-service per capire se i dati provengono da una fonte autorevole.
  • I data engineer non riescono a individuare la causa principale dei problemi a causa della mancanza di un modo affidabile per monitorare tutte le trasformazioni dei dati.
  • I data engineer e gli analisti non possono valutare completamente il possibile impatto prima di modificare o eliminare le tabelle.
  • I responsabili dei dati non sono in grado di capire in che modo vengono utilizzati i dati sensibili all'interno dell'organizzazione e di garantire il rispetto dei requisiti normativi.

La tracciabilità dei dati è una soluzione che offre un modo pratico per svolgere le seguenti operazioni:

  • Scopri come vengono recuperati e trasformati i dati con l'aiuto delle visualizzazioni del grafico di derivazione.
  • Trace gli errori di traccia relativi alle voci e alle operazioni sui dati e individua le cause di fondo.
  • Migliora la gestione delle modifiche tramite l'analisi dell'impatto: evita i tempi di inattività o gli errori imprevisti, comprendi le voci dipendenti e collabora con gli stakeholder pertinenti.

Modello di informazioni sulla derivazione dei dati

Nella sua forma di base, la derivazione è un record dei dati trasformati da origini a destinazioni. L'API Data Lineage raccoglie queste informazioni e le organizza in un modello dei dati gerarchico utilizzando i concetti di processi, esecuzioni ed eventi.

Processo

Un processo è la definizione di un'operazione di trasformazione dei dati supportata per un sistema specifico. Nel contesto della struttura di BigQuery, process è uno dei tipi di job supportati.

Esegui

Per esecuzione si intende l'esecuzione di un processo. I processi possono avere più esecuzioni. Le esecuzioni contengono dettagli come ora di inizio e di fine, stato o attributi aggiuntivi. Per ulteriori informazioni, consulta il riferimento alla risorsa run.

Evento

Un evento rappresenta un punto nel tempo in cui è stata eseguita un'operazione di trasformazione dei dati e ha comportato il trasferimento dei dati tra un'entità di origine e una di destinazione.

Gli eventi contengono un elenco di link che definiscono quale voce era la sorgente e quale era la destinazione in un determinato evento. Sebbene gli eventi vengano utilizzati per calcolare i grafici di visualizzazione della struttura, non sono esposti direttamente nella console Google Cloud. Puoi crearli, leggerli ed eliminarli (ma non aggiornarli) utilizzando l'API Data Lineage.

Esempio

Considera il seguente esempio in cui i dati vengono copiati tra le tabelle BigQuery:

L'esempio estrae i dati dalle tabelle denominate customer_year e customers per ricavare una tabella denominata top_customer.
Figura 1. Esempio di un grafico che mostra le origini dei dati della tabella.

Il modo in cui i dati si spostano tra le tabelle è descritto dal processo di generazione (rappresentato nel grafico dall'icona Icona del processo di organizzazione di BigQuery.): potrebbe essere una query CREATE TABLE AS SELECT SQL o un'istruzione INSERT.

Ogni esecuzione di questa istruzione SQL costituirà una singola esecuzione. Le esecuzioni contengono eventi che registrano le tabelle utilizzate come origini e come destinazioni. In questo esempio, le tabelle customer_year e customers sono entrambe l'origine per la tabella di destinazione top_customer.

Grafo di visualizzazione della struttura

I grafici di derivazione rappresentano le informazioni raccolte dall'API Data Lineage per una determinata voce di Data Catalog. Radice si riferisce alla voce per la quale stai visualizzando la sequenza.

Il grafico di esempio mostra i dati di due tabelle che vengono trasformati e poi uniti in una nuova tabella, con un riquadro dei dettagli che mostra il codice SQL agganciato in basso.
Figura 2. Esempio di grafico di visualizzazione della struttura nella console Google Cloud di Dataplex.

Dataplex funziona con l'API Data Lineage per identificare le voci il cui nome completamente qualificato corrisponde alle entità riconosciute dalla derivazione dei dati. Per le voci Dataplex corrispondenti, puoi accedere alla scheda Linage nella pagina dei dettagli e visualizzare il grafico.

I grafici della struttura mostrano due tipi di elementi:

  • Pulsanti rettangolari larghi che rappresentano le entità coinvolte nella costruzione delle informazioni sulla struttura come origini o destinazioni di un evento della struttura.

  • Pulsanti quadrati più piccoli che rappresentano le procedure responsabili della creazione o dell'aggiornamento delle entità di origine o di destinazione. I pulsanti di elaborazione utilizzano icone specifiche per il sistema di origine che li ha segnalati all'API Data Lineage. Ad esempio, i job BigQuery utilizzano l'iconaIcona del processo di organizzazione di BigQuery..

Visualizzazione elenco della derivazione

La visualizzazione elenco della struttura mostra informazioni dettagliate sulla struttura delle entità in una singola tabella.

Rispetto al grafico di visualizzazione della cronologia, che è più adatto per visualizzare grafici di cronologia relativamente piccoli, la visualizzazione elenco della cronologia consente di visualizzare le informazioni sulla cronologia per le entità con molte connessioni.

L'immagine seguente mostra un esempio della visualizzazione elenco della cronologia nella console Google Cloud. L'elenco che segue descrive l'immagine in modo più dettagliato.

Esempio di visualizzazione elenco della cronologia nella console Google Cloud.
Figura 3. Esempio di visualizzazione elenco della cronologia nella console Google Cloud.
  • Ogni riga della tabella rappresenta un singolo collegamento della cronologia tra due voci. Nel grafico, questi nomi sono rappresentati come link di appartenenza tra due voci, inclusi eventuali nodi di processo intermedi. Ad esempio, Source e Target sono nodi di asset, con eventualmente più nodi di processo intermedi.

  • L'opzione Direzione specifica la parte del flusso di dati da visualizzare nell'elenco in relazione all'asset principale:

    • A monte: mostra le informazioni sulla derivazione per le voci che sono origini dati per la voce selezionata. Nel grafico della struttura, queste voci sono quelle visualizzate a sinistra della voce selezionata.

    • A valle: mostra le informazioni sulla struttura per le voci che utilizzano o derivano dalla voce selezionata. Nel grafico della struttura, queste voci sono quelle visualizzate a destra della voce selezionata.

  • L'opzione Intervallo di tempo ti consente di filtrare le informazioni sulla struttura in base al momento in cui si è verificata:

    • Ora di inizio: mostra la derivazione avvenuta dopo l'ora di inizio.

    • Ora di fine: mostra la derivazione avvenuta prima dell'ora di fine.

  • La profondità indica la distanza dalla risorsa principale di una risorsa di origine o derivata. La visualizzazione elenco mostra fino a 1000 link di albero genealogico, con una profondità massima dalla risorsa principale pari a 10 link di albero genealogico. Se esiste un lignaggio al di fuori di questo intervallo, riceverai una notifica. Puoi visualizzare la linea di discendenza al di fuori di questo intervallo selezionando il nome di un'entità diversa nella visualizzazione elenco.

  • Il riquadro Dettagli mostra informazioni sull'origine del link, sul target del link e su tutte le procedure che hanno creato questo link.

  • Puoi personalizzare le colonne visualizzate nella tabella e filtrare i risultati. Puoi anche esportare i risultati in un file CSV.

Monitoraggio automatico della derivazione dei dati

Quando attivi l'API Data Lineage, i sistemi Google Cloud che supportano la derivazione dei dati iniziano a registrare il movimento dei dati. Ogni sistema integrato può inviare informazioni sulla provenienza per una gamma diversa di origini dati. Per ulteriori informazioni su ogni prodotto supportato, consulta le sezioni che seguono.

BigQuery

Se attivi la consistenza dei dati nel tuo progetto BigQuery, Dataplex registra automaticamente le informazioni sulla consistenza per:

I job di copia, query e caricamento di BigQuery sono rappresentati come processi. Per visualizzare i dettagli della procedura, fai clic su nel grafico di visualizzazione della struttura. Ogni processo contiene job_id di BigQuery nell'elenco attributes per il job BigQuery più recente.

Altri servizi

La cronologia dei dati supporta l'integrazione con i seguenti servizi Google Cloud:

Ricerca della cronologia dei dati per le origini dati personalizzate

Puoi utilizzare l'API Data Lineage in Dataplex per registrare manualmente le informazioni sulla derivazione per qualsiasi origine dati non supportata dai sistemi integrati.

Dataplex può creare grafici di visualizzazione per la registrazione manuale della sequenza se utilizzi un fullyQualifiedNames che corrisponda ai nomi completamente qualificati delle voci di Data Catalog esistenti. Se vuoi registrare la cronologia per un'origine dati personalizzata, crea prima una voce del Data Catalog personalizzata.

Ogni processo per l'origine dati personalizzata può contenere la chiave sql nell'elenco degli attributi. Il valore di questa chiave verrà utilizzato per evidenziare il codice nel riquadro dettagli del grafico della struttura dei dati. L'istruzione SQL verrà visualizzata così come è stata fornita. L'utente è responsabile di filtrare le informazioni sensibili. Il nome della chiave sql è sensibile alle maiuscole.

OpenLineage

Se utilizzi già OpenLineage per raccogliere informazioni sulla cronologia da altre origini dati, puoi importare gli eventi OpenLineage in Dataplex e visualizzarli nella console Google Cloud. Per maggiori dettagli, vedi Eseguire l'integrazione con OpenLineage.

Limitazioni

  • Tutte le informazioni sulla cronologia vengono conservate nel sistema per solo 30 giorni.
  • Le informazioni sulla cronologia rimangono invariate dopo la rimozione dell'origine dati correlata. In altre parole, se rimuovi una tabella BigQuery e la relativa voce di Data Catalog, puoi comunque leggere la relativa origine utilizzando l'API per un massimo di 30 giorni.

Accedere alla derivazione dei dati

Puoi accedere alle funzionalità di organizzazione dei dati utilizzando quanto segue:

Prezzi

  • Dataplex utilizza lo SKU di elaborazione premium per addebitare la derivazione dei dati. Per ulteriori informazioni, consulta la sezione Prezzi.

  • Per separare gli addebiti per la creazione della cronologia dei dati da altri addebiti nello SKU di elaborazione Dataplex Premium, nel report Fatturazione cloud, utilizza l'etichetta goog-dataplex-workload-type con il valore LINEAGE.

  • Se chiami l'API Data Lineage Origin sourceType con un valore diverso da CUSTOM, si verificano costi aggiuntivi.

Passaggi successivi