Informazioni sulla derivazione dei dati

La derivazione dei dati è una funzionalità di Dataplex che ti consente di monitorare il modo in cui i dati si spostano nei tuoi sistemi: da dove provengono, da dove vengono passati e quali trasformazioni vengono applicate.

Perché hai bisogno della derivazione dei dati?

La gestione di set di dati di grandi dimensioni comporta spesso la trasformazione dei dati in entità personalizzate in base alle esigenze di un progetto specifico: file di testo, tabelle, report, dashboard, modelli.

Ad esempio, immagina di avere un negozio online in cui registri tutti gli acquisti in una singola tabella SQL. Per semplificare l'utilizzo dei dati da parte degli analisti, inizia a eseguire job che estraggono le informazioni da questa singola tabella e producono tabelle più piccole per regione, brand o prezzo scontato. Gli analisti iniziano quindi a fare lo stesso: eseguono ulteriori trasformazioni, unendo queste tabelle più piccole con altre origini dati per produrre ancora più tabelle.

Questo aspetto può rappresentare una grande sfida per gli stakeholder:

  • I consumatori dei dati non possono utilizzare uno strumento self-service per capire se i dati provengono da una fonte autorevole.
  • I data engineer non sono in grado di causare problemi a causa della mancanza di un modo affidabile per monitorare tutte le trasformazioni dei dati.
  • I data engineer e gli analisti non possono valutare appieno il possibile impatto prima di modificare o eliminare le tabelle.
  • I governatori dei dati non possono capire in che modo i dati sensibili vengono utilizzati in tutta l'organizzazione e garantire il rispetto dei requisiti normativi.

La derivazione dei dati è una soluzione che offre un modo pratico per:

  • Scopri come i dati vengono reperiti e trasformati con l'aiuto delle visualizzazioni dei grafici di derivazione.
  • Trace alle cause principali gli errori relativi a voci e operazioni sui dati.
  • Migliora la gestione dei cambiamenti attraverso l'analisi dell'impatto: evita tempi di inattività o errori inattesi, comprendi le voci dipendenti e collabora con gli stakeholder pertinenti.

Grafico di visualizzazione della derivazione

I grafici di derivazione rappresentano informazioni raccolte dall'API Data Lineage per una determinata voce di Data Catalog:

Il grafico di esempio mostra i dati di due tabelle trasformate e poi unite in una nuova tabella, con un riquadro dei dettagli che mostra il codice SQL agganciato in basso.
Figura 1. Esempio di grafico di visualizzazione della derivazione nella UI di Dataplex.

Dataplex utilizza l'API Data Lineage per identificare le voci il cui nome completamente qualificato corrisponde a entità riconosciute dalla derivazione dei dati. Per le voci Dataplex corrispondenti, puoi accedere alla scheda Lineage nella relativa pagina dei dettagli e visualizzare il grafico.

I grafici di derivazione mostrano due tipi di elementi:

  • Pulsanti larghi e rettangolari che rappresentano entità coinvolte nella creazione di informazioni di derivazione come origini o destinazioni di un evento di derivazione.
  • Pulsanti quadrati più piccoli che rappresentano i processi responsabili della creazione o dell'aggiornamento delle entità di origine o di destinazione. I pulsanti del processo utilizzano icone specifiche del sistema di origine che li ha segnalati all'API Data Lineage. Ad esempio, i job BigQuery utilizzano l'icona Icona del processo di derivazione BigQuery..

Modello di informazioni sulla derivazione dei dati

Nella sua forma di base, la derivazione è un record dei dati che vengono trasformati da origini a target. L'API Data Lineage raccoglie queste informazioni e le organizza in un modello di dati gerarchico utilizzando i concetti di processi, esecuzioni ed eventi.

Processo

Un processo è la definizione di un'operazione di trasformazione dei dati supportata per un sistema specifico. Nel contesto della derivazione BigQuery, un process è uno dei tipi di job supportati.

Esecuzione

Per esecuzione si intende l'esecuzione di un processo. I processi possono avere più esecuzioni. Le esecuzioni contengono dettagli come ora di inizio e fine, stato o attributi aggiuntivi. Per maggiori informazioni, consulta il riferimento delle risorse di run.

Evento

Un evento rappresenta un momento in cui si è verificata un'operazione di trasformazione dei dati che ha comportato lo spostamento dei dati tra un'entità di origine e un'entità di destinazione.

Gli eventi contengono un elenco di link che definiscono quale voce era l'origine e quale era la destinazione di un particolare evento. Sebbene gli eventi vengano utilizzati per calcolare i grafici di visualizzazione della derivazione, non sono esposti direttamente sulla console Google Cloud. Puoi crearli, leggerli ed eliminarli (ma non aggiornarli) utilizzando l'API Data Lineage.

Esempio

Considera il seguente esempio in cui i dati vengono copiati tra tabelle BigQuery:

L'esempio estrae i dati dalle tabelle chiamate customer_year e ai clienti per ricavare una tabella denominata top_customer.
Figura 2. Esempio di un grafico che mostra le origini dei dati di una tabella.

Il modo in cui i dati si spostano tra le tabelle è descritto dal processo di derivazione (rappresentato nel grafico dall'icona Icona del processo di derivazione BigQuery.): può essere una query SQL CREATE TABLE AS SELECT o un'istruzione INSERT.

Ogni esecuzione dell'istruzione SQL costituisce una singola run. Le esecuzioni contengono eventi: questi record registrano quali tabelle sono state utilizzate come origini e quali come destinazioni. In questo esempio, le tabelle customer_year e customers sono entrambe l'origine della tabella top_customer target.

Monitoraggio automatico della derivazione dei dati

Quando abiliti l'API Data Lineage, i sistemi Google Cloud che supportano la derivazione dei dati iniziano a segnalare lo spostamento dei dati. Ogni sistema integrato può inviare informazioni sulla derivazione per diversi tipi di origini dati. Per ulteriori dettagli su ogni prodotto supportato, consulta le sezioni seguenti.

BigQuery

Se abiliti la derivazione dei dati nel tuo progetto BigQuery, Dataplex registra automaticamente le informazioni di derivazione per:

I job di copia, query e caricamento di BigQuery sono rappresentati come processi (fai clic sull'icona a forma di specchio nel grafico di visualizzazione della derivazione per visualizzare i dettagli del processo). Ogni processo contiene il job_id BigQuery nell'elenco degli attributi per il job BigQuery più recente.

Altri servizi

La derivazione dei dati supporta l'integrazione con i seguenti servizi Google Cloud:

Derivazione dei dati per le origini dati personalizzate

Puoi utilizzare l'API Data Lineage in Dataplex per registrare manualmente le informazioni di derivazione per qualsiasi origine dati non supportata dai sistemi integrati.

Dataplex può creare grafici di visualizzazione per la derivazione registrata manualmente se utilizzi un elemento fullyQualifiedNames che corrisponde ai nomi completi delle voci di Data Catalog esistenti. Se vuoi registrare la derivazione di un'origine dati personalizzata, crea prima una voce personalizzata di Data Catalog.

Ogni processo per l'origine dati personalizzata può contenere la chiave sql nell'elenco degli attributi. Il valore di questa chiave verrà utilizzato per visualizzare l'evidenziazione del codice nel riquadro dei dettagli del grafico della derivazione dei dati. L'istruzione SQL verrà visualizzata così come è stata fornita. L'utente è responsabile del filtraggio delle informazioni sensibili. Il nome della chiave sql è sensibile alle maiuscole.

OpenLineage

Se utilizzi già OpenLineage per raccogliere informazioni sulla derivazione da altre origini dati, puoi importare eventi OpenLineage in Dataplex e visualizzarli nella console Google Cloud. Per maggiori dettagli, consulta Eseguire l'integrazione con OpenLineage.

Limitazioni delle funzionalità attuali

  • Tutte le informazioni sulla derivazione vengono conservate nel sistema solo per 30 giorni.
  • Le informazioni sulla derivazione vengono mantenute dopo la rimozione dell'origine dati correlata. Ciò significa che se rimuovi una tabella BigQuery e la relativa voce di Data Catalog, puoi comunque leggere la derivazione per quella tabella utilizzando l'API per un massimo di 30 giorni.

Accedi alla derivazione dei dati

Puoi accedere alle funzionalità di derivazione dei dati utilizzando:

Passaggi successivi