Che cos'è la derivazione dei dati?

La derivazione dei dati è come un GPS per le informazioni di un'azienda, che traccia il percorso completo e mostra da dove provengono, dove sono state inviate e tutti i passaggi che hanno compiuto lungo il percorso. Monitorando questo percorso, le organizzazioni possono acquisire fiducia nei propri dati e utilizzarli per il processo decisionale critico.

Definizione di derivazione dei dati

La derivazione dei dati è una mappa del ciclo di vita dei dati, che mostra da dove hanno avuto origine, come si sono spostati e trasformati nel tempo e dove si trovano ora. Fornisce un audit trail chiaro per comprendere, monitorare e convalidare i dati.

Questa visualizzazione completa include i sistemi di origine, tutte le trasformazioni applicate (come calcoli, aggregazioni o filtri) e le destinazioni in cui i dati vengono utilizzati, come report, dashboard o altre applicazioni. Immagina un albero genealogico dettagliato per ogni informazione utilizzata dalla tua azienda.

Confronto tra derivazione dei dati e provenienza dei dati

Sebbene spesso utilizzati insieme, la derivazione e la provenienza dei dati si concentrano su aspetti diversi del percorso dei dati.

La derivazione dei dati esamina il percorso dei dati da una prospettiva macro, storica e strategica. Si concentra sul percorso completo e sulla logica di trasformazione che hanno portato allo stato attuale di un asset di dati. È l'intera mappa.
La provenienza dei dati è più granulare e specifica, spesso incentrata sull'origine immediata e sulla proprietà di un punto dati o di un record specifico in un singolo momento. Viene spesso utilizzata per autenticare l'origine di un dato.

In breve, la derivazione mostra l'intera evoluzione dei dati nel tempo e tra i sistemi, mentre la provenienza spesso si concentra sull'origine e sull'autenticità di un particolare elemento di dati.

Come funziona la derivazione dei dati

L'acquisizione della derivazione dei dati era un processo difficile e per lo più manuale, ma le moderne soluzioni cloud aiutano a renderlo altamente automatizzato. Il concetto di base è osservare come i dati si muovono e cambiano nella tua infrastruttura e quindi creare un record visivo e tracciabile.

Acquisizione automatica della derivazione e API Data Lineage

Le piattaforme di dati moderne utilizzano tecniche come l'analisi e il monitoraggio per scoprire e mappare automaticamente i flussi di dati.

Analisi: la piattaforma è in grado di leggere e comprendere la logica di trasformazione scritta in linguaggi come SQL. Leggendo una query (ad esempio, in un job BigQuery), il sistema può vedere quali tabelle e colonne di origine sono state utilizzate per creare una nuova tabella derivata.
Monitoraggio:la piattaforma monitora lo spostamento dei dati tra servizi diversi (ad esempio da un data warehouse a un data lake o a una pipeline di flusso).

Un'API Data Lineage è una tecnologia chiave in questo caso. Consente a diversi sistemi e strumenti di segnalare il proprio utilizzo dei dati a un catalogo centrale. Ad esempio, uno strumento di integrazione dei dati può utilizzare l'API per comunicare al sistema centrale: "Ho appena spostato i dati dalla tabella A alla tabella B ed eseguito un'aggregazione". In questo modo si crea un record accurato e quasi in tempo reale dello spostamento dei dati senza intervento manuale.

Report sulla derivazione manuale e personalizzata

Sebbene l'acquisizione automatica sia l'ideale, potrebbe non coprire ogni parte dei sistemi legacy o personalizzati di un'organizzazione. In questi casi, gli utenti possono fare affidamento sul tagging manuale dei metadati o sulla creazione di report personalizzati. Ciò comporta la documentazione dei flussi di dati da parte di esperti in materia e il loro collegamento all'interno di un catalogo centrale. Sebbene sia meno efficiente, a volte è necessario per completare la visualizzazione end-to-end.

Report e visualizzazione della derivazione

Una volta acquisite le informazioni sulla derivazione, vengono presentate agli utenti tramite uno strumento di visualizzazione, spesso un'interfaccia web. Questo strumento prende i metadati complessi e li trasforma in un grafico o diagramma interattivo più facile da leggere. Gli utenti possono fare clic su un report o una tabella e vedere immediatamente un diagramma di flusso di ogni origine upstream e consumatore downstream, il che può rendere la comprensione del percorso dei dati semplice come seguire una linea su una mappa.

Componenti chiave di una mappa di derivazione dei dati

Una buona mappa di derivazione dei dati può aiutarti a rispondere rapidamente alle domande "chi, cosa, quando, dove e perché" su qualsiasi asset di dati. I componenti essenziali monitorati includono quanto segue.

Origine: il luogo in cui sono stati creati i dati, ad esempio un database transazionale, un file o un sistema esterno.
Logica di trasformazione: le operazioni specifiche o le regole aziendali applicate ai dati; possono includere query SQL, script Python o logica dei job ETL (Extract, Transform, Load).
Percorso/Flusso: la sequenza di sistemi, processi e datastore attraverso cui si spostano i dati.
Data/Versione: quando sono stati elaborati i dati e quale versione dei dati o della logica di trasformazione è stata utilizzata.
Destinazione/Consumatore: il luogo in cui i dati vengono archiviati e chi o cosa li ha utilizzati, ad esempio un report normativo o una macchina.

Vantaggi della derivazione dei dati

La derivazione dei dati non è solo un esercizio tecnico, ma può anche contribuire a generare un valore aziendale tangibile migliorando il modo in cui un'organizzazione gestisce e si fida dei propri dati.

Miglioramento della governance e della conformità dei dati

La derivazione dei dati aiuta le organizzazioni a dimostrare esattamente quali origini dati sono state utilizzate per creare report sensibili, il che è spesso richiesto per la conformità normativa come GDPR, CCPA o HIPAA.

Analisi più rapida delle cause principali per i problemi di qualità dei dati

La derivazione consente ai team tecnici di monitorare rapidamente nel passato il punto dati errato, oltre più trasformazioni e sistemi, fino all'esatta origine in cui è stato introdotto l'errore.

Analisi d'impatto migliorata per le modifiche al sistema

La derivazione dei dati fornisce un'analisi d'impatto istantanea. Monitorando la previsione della modifica proposta, i team possono vedere ogni report, dashboard o applicazione che si basa su quei dati, il che consente loro di valutare il rischio e avvisare i consumatori di dati prima che la modifica interrompa qualcosa.

Maggiore fiducia negli asset di dati

Quando gli utenti possono verificare facilmente l'origine e i passaggi di trasformazione dei dati che stanno utilizzando, la loro fiducia in questi dati aumenta notevolmente. Questo può portare a decisioni basate maggiormente sui dati perché le persone non mettono in discussione la qualità o l'affidabilità delle informazioni alla base.

Derivazione dai dati all'AI

La derivazione dei dati può anche aiutare nell'analisi della causa principale per i modelli di AI. Se un modello di cui è stato eseguito il deployment inizia a mostrare una deviazione (degrado delle prestazioni) o genera previsioni con bias, la derivazione consente ai data scientist di risalire rapidamente all'origine.

Tipi comuni di derivazione dei dati

La derivazione dei dati può essere monitorata in diverse fasi del ciclo di vita dello sviluppo dei dati e a vari livelli di dettaglio, a seconda delle necessità.

Derivazione in fase di progettazione

La derivazione in fase di progettazione acquisisce il flusso di dati mentre viene progettato e configurato negli ambienti di sviluppo e test. Si basa sulla lettura dei progetti delle pipeline di dati, come gli schemi, gli script e le configurazioni dei job ETL. Indica cosa dovrebbe succedere ai dati.

Derivazione di runtime

La derivazione di runtime acquisisce il flusso di dati così come avviene effettivamente nell'ambiente di produzione. Registra gli input e gli output specifici dei processi e dei job eseguiti. Ti dice cosa è successo ai dati, compresi eventuali comportamenti imprevisti o errori. Per la governance dei dati, la derivazione di runtime è spesso considerata più preziosa perché riflette la realtà.

Livelli di derivazione granulari

Il livello di dettaglio acquisito è chiamato granularità. Le organizzazioni scelgono un livello di granularità in base alle loro esigenze di governance dei dati e alla complessità tecnica del loro ambiente.

A livello di tabella: monitora il flusso di dati tra intere tabelle o set di dati; mostra che "Tabella clienti A" è confluita in "Tabella report vendite B".
Esempio: un sistema mostra che l'intera tabella raw_transactions è stata caricata nella tabella daily_aggregations.
A livello di colonna: monitora il flusso di dati da una colonna di origine a una colonna di destinazione, comprese le trasformazioni applicate; spesso è necessario per la conformità.
Esempio: monitora che la colonna customer_id del database di origine è stata rinominata user_key nel data warehouse e quindi utilizzata come parte di un join per creare final_report.
A livello di report: monitora quali report, dashboard o applicazioni utilizzano quali tabelle e colonne; questo è fondamentale per l'analisi dell'impatto e la fiducia degli utenti aziendali.
Esempio: un analista aziendale può risalire a una metrica sulla dashboard delle vendite esecutive fino alle colonne e alle tabelle specifiche utilizzate nel suo calcolo.
End-to-end: fornisce una visione completa di tutti i sistemi, dall'applicazione di origine iniziale (come un CRM) a tutti i passaggi di gestione temporanea, pulizia e trasformazione, fino al report finale o al modello di machine learning.
Esempio: monitoraggio del percorso di un singolo cliente da quando si è registrato per la prima volta (dati acquisiti nel database dell'app web) fino al riepilogo del suo utilizzo nell'output del modello di previsione dell'abbandono.

Risolvi le tue sfide aziendali con Google Cloud

I nuovi clienti ricevono 300 $ di crediti gratuiti da spendere su Google Cloud.

Soluzioni e prodotti correlati

Google Cloud offre diversi prodotti e servizi che possono aiutare le organizzazioni ad acquisire, gestire e sfruttare automaticamente la derivazione dei dati nella loro infrastruttura cloud.

Risorse correlate

Per scoprire di più sull'implementazione della derivazione dei dati utilizzando i prodotti di analisi di Google Cloud, puoi consultare queste guide alla documentazione ufficiale:

Informazioni sulla derivazione dei dati: questo documento spiega cos'è la derivazione dei dati di Dataplex, illustrandone il flusso di lavoro dalle origini alla piattaforma centrale e descrivendo in dettaglio come fornisce una mappa chiara, visiva e programmatica del percorso dei dati
Utilizza la derivazione dei dati con i sistemi Google Cloud: questa guida spiega in dettaglio come abilitare l'API Data Lineage, gestire le autorizzazioni Identity and Access Management (IAM) necessarie e visualizzare le informazioni sulla derivazione come grafico interattivo o elenco all'interno della console Google Cloud in BigQuery, Dataplex e Vertex AI
Data lineage with Dataplex Universal Catalog: questo documento descrive in dettaglio l'abilitazione dell'integrazione automatica della derivazione dei dati in Cloud Composer 2, che utilizza il pacchetto apache-airflow-providers-openlineage per inviare eventi di derivazione all'API Data Lineage per gli operatori supportati