La derivazione dei dati è una funzionalità di Dataplex che consente di monitorare il modo in cui i dati si spostano nei sistemi: da dove provengono, dove vengono trasmessi e quali trasformazioni vengono applicate.
Perché è necessaria la derivazione dei dati?
Affrontare grandi set di dati comporta spesso la loro trasformazione in entità su misura per le esigenze di un progetto specifico: file di testo, tabelle, report, dashboard e modelli.
Ad esempio, immagina di avere un negozio online in cui registri tutti gli acquisti in una singola tabella SQL. Per semplificare l'utilizzo dei dati da parte degli analisti, inizia a eseguire job che estraggono informazioni da questa singola tabella e producono tabelle più piccole in base alla regione, al brand o al prezzo scontato. Gli analisti iniziano quindi a fare lo stesso: eseguono ulteriori trasformazioni, unendo queste tabelle più piccole con altre origini dati per produrre ancora più tabelle.
Questo può diventare una grande sfida per gli stakeholder:
- I consumatori dei dati non possono utilizzare uno strumento self-service per capire se i dati provengono da una fonte autorevole.
- I data engineer non possono determinare la causa dei problemi a causa della mancanza di un modo affidabile per monitorare tutte le trasformazioni dei dati.
- I data engineer e gli analisti non sono in grado di valutare appieno il possibile impatto prima di modificare o eliminare le tabelle.
- I governatori dei dati non possono capire come vengono utilizzati i dati sensibili in tutta l'organizzazione e non possono garantire il rispetto dei requisiti normativi.
La derivazione dei dati è una soluzione che offre un modo pratico per:
- Scopri come vengono selezionati e trasformati i dati con l'aiuto delle visualizzazioni dei grafici di derivazione.
- Trace gli errori relativi alle voci e alle operazioni sui dati riportandoli alle cause principali.
- Migliora la gestione dei cambiamenti attraverso l'analisi dell'impatto: evita tempi di inattività o errori imprevisti, comprendi le voci dipendenti e collabora con gli stakeholder rilevanti.
Grafico di visualizzazione della derivazione
I grafici di derivazione rappresentano le informazioni raccolte dall'API Data Lineage per una particolare voce di Data Catalog:
Dataplex funziona con l'API Data Lineage per identificare le voci il cui nome completo corrisponde alle entità riconosciute dalla derivazione dei dati. Per le voci Dataplex corrispondenti, puoi accedere alla scheda Derivazione nella pagina dei dettagli e visualizzare il grafico.
I grafici di derivazione mostrano due tipi di elementi:
- Pulsanti rettangolari ampi che rappresentano le entità coinvolte nella creazione di informazioni di derivazione come origini o destinazioni di un evento di derivazione.
- Pulsanti quadrati più piccoli che rappresentano i processi responsabili della creazione o dell'aggiornamento delle entità di origine o di destinazione. I pulsanti di elaborazione utilizzano icone specifiche del sistema di origine che li ha segnalati all'API Data Lineage. Ad esempio, i job BigQuery utilizzano l'icona .
Modello di informazioni sulla derivazione dei dati
Nella forma di base, la derivazione è un record dei dati che vengono trasformati da origini a target. L'API Data Lineage raccoglie queste informazioni e le organizza in un modello dei dati gerarchico utilizzando i concetti di processi, esecuzioni ed eventi.
Processo
Un processo è la definizione di un'operazione di trasformazione dei dati supportata per un sistema specifico. Nel contesto della derivazione di BigQuery, process
è uno dei tipi di job supportati.
Esecuzione
Per esecuzione si intende l'esecuzione di un processo. I processi possono avere più esecuzioni.
Le esecuzioni contengono dettagli come ora di inizio e di fine, stato o attributi aggiuntivi.
Per maggiori informazioni, consulta la documentazione di riferimento delle risorse di run
.
Evento
Un evento rappresenta un momento in cui è avvenuta un'operazione di trasformazione dei dati che ha comportato lo spostamento dei dati tra un'origine e un'entità di destinazione.
Gli eventi contengono un elenco di link che definiscono la voce di origine e quella di destinazione in un determinato evento. Sebbene gli eventi vengano utilizzati per calcolare i grafici di visualizzazione della derivazione, non vengono esposti direttamente nella console Google Cloud. Puoi crearle, leggerle ed eliminarle (ma non aggiornarle) utilizzando l'API Data Lineage.
Esempio
Considera il seguente esempio in cui i dati vengono copiati tra tabelle BigQuery:
Il modo in cui i dati si spostano tra le tabelle è descritto dal processo di derivazione
(rappresentato sul grafico dall'icona
): può essere una query SQL CREATE TABLE AS SELECT
o un'istruzione INSERT
.
Ogni esecuzione di quell'istruzione SQL rappresenterebbe una singola run.
Le esecuzioni contengono eventi, ovvero record delle tabelle utilizzate come origini e quali come destinazioni. In questo esempio, le tabelle customer_year
e customers
sono entrambe l'origine per la tabella top_customer
di destinazione.
Monitoraggio automatizzato della derivazione dei dati
Quando abiliti l'API Data Lineage, i sistemi Google Cloud che supportano la derivazione dei dati iniziano a segnalare lo spostamento dei dati. Ogni sistema integrato può inviare informazioni sulla derivazione per una diversa gamma di origini dati. Per ulteriori dettagli su tutti i prodotti supportati, consulta le sezioni seguenti.
BigQuery
Se abiliti la derivazione dei dati nel tuo progetto BigQuery, Dataplex registra automaticamente le informazioni sulla derivazione per:
- Nuove tabelle derivanti dai seguenti job BigQuery:
- Job di copia
- Job di caricamento che utilizzano l'URI Cloud Storage per caricare dati in tutti i formati consentiti da Cloud Storage*
- Job di query che utilizzano il seguente DDL (Data Definition Language) in SQL standard di Google:
- Tabelle esistenti a seguito dell'utilizzo delle seguenti istruzioni DML (Data Manipulation Language) in SQL standard di Google:
- SELECT in relazione a uno qualsiasi dei tipi di tabella elencati:
- INSERISCI SELEZIONE
- UNISCI
- AGGIORNA
- ELIMINA
I job di copia, query e caricamento di BigQuery sono rappresentati come processi (fai clic sull'icona a forma di specchio nel grafico di visualizzazione della derivazione per vedere i dettagli del processo). Ogni processo contiene il job_id BigQuery nell'elenco degli attributi per il job BigQuery più recente.
Altri servizi
La derivazione dei dati supporta l'integrazione con i seguenti servizi Google Cloud:
Derivazione dei dati per origini dati personalizzate
Puoi utilizzare l'API Data Lineage in Dataplex per registrare manualmente le informazioni di derivazione per qualsiasi origine dati non supportata dai sistemi integrati.
Dataplex può creare grafici di visualizzazione per la derivazione registrata manualmente se utilizzi una risorsa fullyQualifiedNames
che corrisponde ai nomi completi delle voci di Data Catalog esistenti. Se vuoi registrare la derivazione per un'origine dati personalizzata, crea prima una voce di Data Catalog personalizzata.
Ogni processo per l'origine dati personalizzata può contenere la chiave sql
nell'elenco degli attributi. Il valore di questa chiave verrà utilizzato per eseguire il rendering dell'evidenziazione del codice nel riquadro dei dettagli del grafico della derivazione dei dati. L'istruzione SQL verrà visualizzata
così come è stata fornita. L'utente ha la responsabilità di filtrare le informazioni sensibili. Il
nome della chiave sql
è sensibile alle maiuscole.
OpenLineage
Se utilizzi già OpenLineage per raccogliere informazioni sulla derivazione da altre origini dati, puoi importare eventi OpenLineage in Dataplex e visualizzarli nella console Google Cloud. Per maggiori dettagli, vedi Eseguire l'integrazione con OpenLineage.
Limitazioni delle funzionalità attuali
- Tutte le informazioni sulla derivazione vengono conservate nel sistema solo per 30 giorni.
- Le informazioni sulla derivazione vengono mantenute dopo la rimozione dell'origine dati correlata. Ciò significa che se rimuovi una tabella BigQuery e la relativa voce di Data Catalog, puoi comunque leggerne la derivazione utilizzando l'API per un massimo di 30 giorni.
Accedi alla derivazione dei dati
Puoi accedere alle funzionalità di derivazione dei dati utilizzando:
- Pagine dei dettagli delle voci nella UI di Dataplex nella console Google Cloud. Vedi Visualizzare i grafici della derivazione.
- Pagina dei dettagli della tabella nella UI di BigQuery nella console Google Cloud. Vedi Visualizzare i grafici della derivazione.
- Pagine del set di dati e del registro dei modelli nella UI di Vertex AI nella console Google Cloud. Vedi Visualizzare i grafici della derivazione.
- API Data Lineage
Passaggi successivi
Scopri come monitorare la derivazione dei dati per la copia di una tabella BigQuery ed eseguire query sui job.
Scopri come utilizzare la derivazione dei dati con i sistemi di Google Cloud.
Per informazioni amministrative, consulta le sezioni IAM aggiornate, le valutazioni sulla derivazione e l'audit logging della derivazione dei dati.