La derivazione dei dati è una funzionalità di Dataplex che consente di monitorare il modo in cui i dati vengono spostati nei sistemi: da dove provengono, dove vengono inviati e a quali trasformazioni sono sottoposti.
Perché hai bisogno della cronologia dei dati?
Gestire set di dati di grandi dimensioni spesso comporta la trasformazione dei dati in entità personalizzate in base alle esigenze di un progetto specifico: file di testo, tabelle, report, dashboard, modelli.
Ad esempio, immagina di avere un negozio online in cui registri ogni acquisto in una singola tabella SQL. Per semplificare il lavoro degli analisti con i dati, inizia a eseguire job che estraggono le informazioni da questa singola tabella e producono tabelle più piccole per regione, marca o prezzo di vendita. Gli analisti poi fanno lo stesso: eseguono ulteriori trasformazioni, unendo queste tabelle più piccole con altre origini dati per produrre ancora più tabelle.
Questo può rappresentare una grande sfida per i tuoi stakeholder:
- I consumatori di dati non possono utilizzare uno strumento self-service per capire se i dati provengono da una fonte autorevole.
- I data engineer non riescono a individuare la causa principale dei problemi a causa della mancanza di un modo affidabile per monitorare tutte le trasformazioni dei dati.
- I data engineer e gli analisti non possono valutare completamente il possibile impatto prima di modificare o eliminare le tabelle.
- I responsabili dei dati non sono in grado di capire in che modo vengono utilizzati i dati sensibili all'interno dell'organizzazione e di garantire il rispetto dei requisiti normativi.
La tracciabilità dei dati è una soluzione che offre un modo pratico per svolgere le seguenti operazioni:
- Scopri come vengono recuperati e trasformati i dati con l'aiuto delle visualizzazioni del grafico di derivazione.
- Trace gli errori di traccia relativi alle voci e alle operazioni sui dati e individua le cause di fondo.
- Migliora la gestione delle modifiche tramite l'analisi dell'impatto: evita i tempi di inattività o gli errori imprevisti, comprendi le voci dipendenti e collabora con gli stakeholder pertinenti.
Modello di informazioni sulla derivazione dei dati
Nella sua forma di base, la derivazione è un record dei dati trasformati da origini a destinazioni. L'API Data Lineage raccoglie queste informazioni e le organizza in un modello dei dati gerarchico utilizzando i concetti di processi, esecuzioni ed eventi.
Processo
Un processo è la definizione di un'operazione di trasformazione dei dati supportata per un sistema specifico. Nel contesto della struttura di BigQuery,
process
è uno dei tipi di job supportati.
Esegui
Per esecuzione si intende l'esecuzione di un processo. I processi possono avere più esecuzioni.
Le esecuzioni contengono dettagli come ora di inizio e di fine, stato o attributi aggiuntivi.
Per ulteriori informazioni, consulta il
riferimento alla risorsa run
.
Evento
Un evento rappresenta un punto nel tempo in cui è stata eseguita un'operazione di trasformazione dei dati e ha comportato il trasferimento dei dati tra un'entità di origine e una di destinazione.
Gli eventi contengono un elenco di link che definiscono quale voce era la sorgente e quale era la destinazione in un determinato evento. Sebbene gli eventi vengano utilizzati per calcolare i grafici di visualizzazione della struttura, non sono esposti direttamente nella console Google Cloud. Puoi crearli, leggerli ed eliminarli (ma non aggiornarli) utilizzando l'API Data Lineage.
Esempio
Considera il seguente esempio in cui i dati vengono copiati tra le tabelle BigQuery:
Il modo in cui i dati si spostano tra le tabelle è descritto dal processo di generazione (rappresentato nel grafico dall'icona ): potrebbe essere una query CREATE TABLE AS SELECT
SQL o un'istruzione INSERT
.
Ogni esecuzione di questa istruzione SQL costituirà una singola esecuzione.
Le esecuzioni contengono eventi che registrano le tabelle utilizzate come origini e come destinazioni. In questo esempio, le tabelle customer_year
e customers
sono entrambe l'origine per la tabella di destinazione top_customer
.
Grafo di visualizzazione della struttura
I grafici di derivazione rappresentano le informazioni raccolte dall'API Data Lineage per una determinata voce di Data Catalog. Radice si riferisce alla voce per la quale stai visualizzando la sequenza.
Dataplex funziona con l'API Data Lineage per identificare le voci il cui nome completamente qualificato corrisponde alle entità riconosciute dalla derivazione dei dati. Per le voci Dataplex corrispondenti, puoi accedere alla scheda Linage nella pagina dei dettagli e visualizzare il grafico.
I grafici della struttura mostrano due tipi di elementi:
Pulsanti rettangolari larghi che rappresentano le entità coinvolte nella costruzione delle informazioni sulla struttura come origini o destinazioni di un evento della struttura.
Pulsanti quadrati più piccoli che rappresentano le procedure responsabili della creazione o dell'aggiornamento delle entità di origine o di destinazione. I pulsanti di elaborazione utilizzano icone specifiche per il sistema di origine che li ha segnalati all'API Data Lineage. Ad esempio, i job BigQuery utilizzano l'icona.
Visualizzazione elenco della derivazione
La visualizzazione elenco della struttura mostra informazioni dettagliate sulla struttura delle entità in una singola tabella.
Rispetto al grafico di visualizzazione della cronologia, che è più adatto per visualizzare grafici di cronologia relativamente piccoli, la visualizzazione elenco della cronologia consente di visualizzare le informazioni sulla cronologia per le entità con molte connessioni.
L'immagine seguente mostra un esempio della visualizzazione elenco della cronologia nella console Google Cloud. L'elenco che segue descrive l'immagine in modo più dettagliato.
Ogni riga della tabella rappresenta un singolo collegamento della cronologia tra due voci. Nel grafico, questi nomi sono rappresentati come link di appartenenza tra due voci, inclusi eventuali nodi di processo intermedi. Ad esempio,
Source
eTarget
sono nodi di asset, con eventualmente più nodi di processo intermedi.L'opzione Direzione specifica la parte del flusso di dati da visualizzare nell'elenco in relazione all'asset principale:
A monte: mostra le informazioni sulla derivazione per le voci che sono origini dati per la voce selezionata. Nel grafico della struttura, queste voci sono quelle visualizzate a sinistra della voce selezionata.
A valle: mostra le informazioni sulla struttura per le voci che utilizzano o derivano dalla voce selezionata. Nel grafico della struttura, queste voci sono quelle visualizzate a destra della voce selezionata.
L'opzione Intervallo di tempo ti consente di filtrare le informazioni sulla struttura in base al momento in cui si è verificata:
Ora di inizio: mostra la derivazione avvenuta dopo l'ora di inizio.
Ora di fine: mostra la derivazione avvenuta prima dell'ora di fine.
La profondità indica la distanza dalla risorsa principale di una risorsa di origine o derivata. La visualizzazione elenco mostra fino a 1000 link di albero genealogico, con una profondità massima dalla risorsa principale pari a 10 link di albero genealogico. Se esiste un lignaggio al di fuori di questo intervallo, riceverai una notifica. Puoi visualizzare la linea di discendenza al di fuori di questo intervallo selezionando il nome di un'entità diversa nella visualizzazione elenco.
Il riquadro Dettagli mostra informazioni sull'origine del link, sul target del link e su tutte le procedure che hanno creato questo link.
Puoi personalizzare le colonne visualizzate nella tabella e filtrare i risultati. Puoi anche esportare i risultati in un file CSV.
Monitoraggio automatico della derivazione dei dati
Quando attivi l'API Data Lineage, i sistemi Google Cloud che supportano la derivazione dei dati iniziano a registrare il movimento dei dati. Ogni sistema integrato può inviare informazioni sulla provenienza per una gamma diversa di origini dati. Per ulteriori informazioni su ogni prodotto supportato, consulta le sezioni che seguono.
BigQuery
Se attivi la consistenza dei dati nel tuo progetto BigQuery, Dataplex registra automaticamente le informazioni sulla consistenza per:
Nuove tabelle come risultato dei seguenti job BigQuery:
- Job di copia
- Job di caricamento che utilizzano l'URI Cloud Storage per caricare i dati in qualsiasi formato consentito da Cloud Storage*
- Job di query che utilizzano il seguente linguaggio di definizione dei dati (DDL) in SQL standard di Google:
Tabelle esistenti a seguito dell'utilizzo delle seguenti istruzioni del linguaggio di manipolazione dei dati (DML) in Google Standard SQL:
- SELECT in relazione a uno dei tipi di tabelle elencati:
- INSERT SELECT
- UNIONE
- AGGIORNAMENTO
- DELETE
I job di copia, query e caricamento di BigQuery sono rappresentati come processi. Per visualizzare i dettagli della procedura, fai clic su nel grafico di visualizzazione della struttura. Ogni processo contiene job_id di BigQuery nell'elenco attributes per il job BigQuery più recente.
Altri servizi
La cronologia dei dati supporta l'integrazione con i seguenti servizi Google Cloud:
Ricerca della cronologia dei dati per le origini dati personalizzate
Puoi utilizzare l'API Data Lineage in Dataplex per registrare manualmente le informazioni sulla derivazione per qualsiasi origine dati non supportata dai sistemi integrati.
Dataplex può creare grafici di visualizzazione per la registrazione manuale della sequenza se utilizzi un fullyQualifiedNames
che corrisponda ai nomi completamente qualificati delle voci di Data Catalog esistenti. Se vuoi registrare la cronologia per un'origine dati personalizzata, crea prima una voce del Data Catalog personalizzata.
Ogni processo per l'origine dati personalizzata può contenere la chiave sql
nell'elenco degli attributi. Il valore di questa chiave verrà utilizzato per evidenziare il codice nel riquadro dettagli del grafico della struttura dei dati. L'istruzione SQL verrà visualizzata così come è stata fornita. L'utente è responsabile di filtrare le informazioni sensibili. Il nome della chiave sql
è sensibile alle maiuscole.
OpenLineage
Se utilizzi già OpenLineage per raccogliere informazioni sulla cronologia da altre origini dati, puoi importare gli eventi OpenLineage in Dataplex e visualizzarli nella console Google Cloud. Per maggiori dettagli, vedi Eseguire l'integrazione con OpenLineage.
Limitazioni
- Tutte le informazioni sulla cronologia vengono conservate nel sistema per solo 30 giorni.
- Le informazioni sulla cronologia rimangono invariate dopo la rimozione dell'origine dati correlata. In altre parole, se rimuovi una tabella BigQuery e la relativa voce di Data Catalog, puoi comunque leggere la relativa origine utilizzando l'API per un massimo di 30 giorni.
Accedere alla derivazione dei dati
Puoi accedere alle funzionalità di organizzazione dei dati utilizzando quanto segue:
- Pagina dei dettagli della voce nell'interfaccia web di Dataplex nella console Google Cloud. Consulta Visualizzare i grafici della struttura.
- Pagina dei dettagli della tabella nell'interfaccia web di BigQuery nella console Google Cloud. Consulta Visualizzare i grafici della struttura.
- Pagina Set di dati e Model Registry nell'interfaccia web di Vertex AI nella console Google Cloud. Consulta Visualizzare i grafici della struttura.
- API Data Lineage
Prezzi
Dataplex utilizza lo SKU di elaborazione premium per addebitare la derivazione dei dati. Per ulteriori informazioni, consulta la sezione Prezzi.
Per separare gli addebiti per la creazione della cronologia dei dati da altri addebiti nello SKU di elaborazione Dataplex Premium, nel report Fatturazione cloud, utilizza l'etichetta
goog-dataplex-workload-type
con il valoreLINEAGE
.Se chiami l'API Data Lineage
Origin
sourceType
con un valore diverso daCUSTOM
, si verificano costi aggiuntivi.
Passaggi successivi
Scopri come monitorare la consistenza dei dati per i processi di copia e query delle tabelle BigQuery.
Scopri come utilizzare la cronologia dei dati con i sistemi Google Cloud.
Per informazioni amministrative, consulta le sezioni IAM aggiornate, le considerazioni sulla struttura e l'audit logging della struttura dei dati.