La derivazione dei dati è come un GPS per le informazioni di un'azienda, che traccia il percorso completo e mostra da dove provengono, dove sono state inviate e tutti i passaggi che hanno compiuto lungo il percorso. Monitorando questo percorso, le organizzazioni possono acquisire fiducia nei propri dati e utilizzarli per il processo decisionale critico.
La derivazione dei dati è una mappa del ciclo di vita dei dati, che mostra da dove hanno avuto origine, come si sono spostati e trasformati nel tempo e dove si trovano ora. Fornisce un audit trail chiaro per comprendere, monitorare e convalidare i dati.
Questa visualizzazione completa include i sistemi di origine, tutte le trasformazioni applicate (come calcoli, aggregazioni o filtri) e le destinazioni in cui i dati vengono utilizzati, come report, dashboard o altre applicazioni. Immagina un albero genealogico dettagliato per ogni informazione utilizzata dalla tua azienda.
Sebbene spesso utilizzati insieme, la derivazione e la provenienza dei dati si concentrano su aspetti diversi del percorso dei dati.
In breve, la derivazione mostra l'intera evoluzione dei dati nel tempo e tra i sistemi, mentre la provenienza spesso si concentra sull'origine e sull'autenticità di un particolare elemento di dati.
L'acquisizione della derivazione dei dati era un processo difficile e per lo più manuale, ma le moderne soluzioni cloud aiutano a renderlo altamente automatizzato. Il concetto di base è osservare come i dati si muovono e cambiano nella tua infrastruttura e quindi creare un record visivo e tracciabile.
Le piattaforme di dati moderne utilizzano tecniche come l'analisi e il monitoraggio per scoprire e mappare automaticamente i flussi di dati.
Un'API Data Lineage è una tecnologia chiave in questo caso. Consente a diversi sistemi e strumenti di segnalare il proprio utilizzo dei dati a un catalogo centrale. Ad esempio, uno strumento di integrazione dei dati può utilizzare l'API per comunicare al sistema centrale: "Ho appena spostato i dati dalla tabella A alla tabella B ed eseguito un'aggregazione". In questo modo si crea un record accurato e quasi in tempo reale dello spostamento dei dati senza intervento manuale.
Sebbene l'acquisizione automatica sia l'ideale, potrebbe non coprire ogni parte dei sistemi legacy o personalizzati di un'organizzazione. In questi casi, gli utenti possono fare affidamento sul tagging manuale dei metadati o sulla creazione di report personalizzati. Ciò comporta la documentazione dei flussi di dati da parte di esperti in materia e il loro collegamento all'interno di un catalogo centrale. Sebbene sia meno efficiente, a volte è necessario per completare la visualizzazione end-to-end.
Una volta acquisite le informazioni sulla derivazione, vengono presentate agli utenti tramite uno strumento di visualizzazione, spesso un'interfaccia web. Questo strumento prende i metadati complessi e li trasforma in un grafico o diagramma interattivo più facile da leggere. Gli utenti possono fare clic su un report o una tabella e vedere immediatamente un diagramma di flusso di ogni origine upstream e consumatore downstream, il che può rendere la comprensione del percorso dei dati semplice come seguire una linea su una mappa.
Una buona mappa di derivazione dei dati può aiutarti a rispondere rapidamente alle domande "chi, cosa, quando, dove e perché" su qualsiasi asset di dati. I componenti essenziali monitorati includono quanto segue.
La derivazione dei dati non è solo un esercizio tecnico, ma può anche contribuire a generare un valore aziendale tangibile migliorando il modo in cui un'organizzazione gestisce e si fida dei propri dati.
Miglioramento della governance e della conformità dei dati
La derivazione dei dati aiuta le organizzazioni a dimostrare esattamente quali origini dati sono state utilizzate per creare report sensibili, il che è spesso richiesto per la conformità normativa come GDPR, CCPA o HIPAA.
Analisi più rapida delle cause principali per i problemi di qualità dei dati
La derivazione consente ai team tecnici di monitorare rapidamente nel passato il punto dati errato, oltre più trasformazioni e sistemi, fino all'esatta origine in cui è stato introdotto l'errore.
Analisi d'impatto migliorata per le modifiche al sistema
La derivazione dei dati fornisce un'analisi d'impatto istantanea. Monitorando la previsione della modifica proposta, i team possono vedere ogni report, dashboard o applicazione che si basa su quei dati, il che consente loro di valutare il rischio e avvisare i consumatori di dati prima che la modifica interrompa qualcosa.
Maggiore fiducia negli asset di dati
Quando gli utenti possono verificare facilmente l'origine e i passaggi di trasformazione dei dati che stanno utilizzando, la loro fiducia in questi dati aumenta notevolmente. Questo può portare a decisioni basate maggiormente sui dati perché le persone non mettono in discussione la qualità o l'affidabilità delle informazioni alla base.
Derivazione dai dati all'AI
La derivazione dei dati può anche aiutare nell'analisi della causa principale per i modelli di AI. Se un modello di cui è stato eseguito il deployment inizia a mostrare una deviazione (degrado delle prestazioni) o genera previsioni con bias, la derivazione consente ai data scientist di risalire rapidamente all'origine.
La derivazione dei dati può essere monitorata in diverse fasi del ciclo di vita dello sviluppo dei dati e a vari livelli di dettaglio, a seconda delle necessità.
La derivazione in fase di progettazione acquisisce il flusso di dati mentre viene progettato e configurato negli ambienti di sviluppo e test. Si basa sulla lettura dei progetti delle pipeline di dati, come gli schemi, gli script e le configurazioni dei job ETL. Indica cosa dovrebbe succedere ai dati.
La derivazione di runtime acquisisce il flusso di dati così come avviene effettivamente nell'ambiente di produzione. Registra gli input e gli output specifici dei processi e dei job eseguiti. Ti dice cosa è successo ai dati, compresi eventuali comportamenti imprevisti o errori. Per la governance dei dati, la derivazione di runtime è spesso considerata più preziosa perché riflette la realtà.
Il livello di dettaglio acquisito è chiamato granularità. Le organizzazioni scelgono un livello di granularità in base alle loro esigenze di governance dei dati e alla complessità tecnica del loro ambiente.
Inizia a creare su Google Cloud con 300 $ di crediti gratuiti e oltre 20 prodotti Always Free.