La derivazione dei dati è un Dataplex che consente di tenere traccia del movimento dei dati nei sistemi: a dove vengono da dove viene trasmesso e quali trasformazioni vengono applicate.
Perché è necessaria la derivazione dei dati?
Affrontare grandi set di dati comporta spesso la loro trasformazione in entità su misura alle esigenze di un progetto specifico: file di testo, tabelle, report, dashboard, modelli.
Ad esempio, immagina di avere un negozio online in cui registri tutti gli acquisti in una singola tabella SQL. Per semplificare l'utilizzo dei dati da parte degli analisti, inizierai a eseguire job che estraggono informazioni da questa singola tabella e produrre tabelle più piccole per regione, marca o prezzo scontato. I tuoi analisti quindi iniziano a fare lo stesso: eseguono ulteriori trasformazioni, unendo queste più piccole con altre origini dati per produrre ancora più tabelle.
Questo può diventare una grande sfida per gli stakeholder:
- I consumatori dei dati non possono utilizzare uno strumento self-service per capire se i dati provengono provenienti da una fonte autorevole.
- I data engineer non possono determinare la causa dei problemi perché non sono dotati di sistemi per monitorare tutte le trasformazioni dei dati.
- I data engineer e gli analisti non sono in grado di valutare appieno il possibile impatto prima modificare o eliminare le tabelle.
- I governatori dei dati non possono capire come vengono utilizzati i dati sensibili l'organizzazione e garantire il rispetto dei requisiti normativi.
La derivazione dei dati è una soluzione che offre un modo pratico per:
- Capire come vengono acquisiti e trasformati i dati con l'aiuto della derivazione e visualizzazioni grafici.
- Trace gli errori relativi a voci e operazioni sui dati alla loro radice cause.
- Migliora la gestione dei cambiamenti attraverso l'analisi dell'impatto: evita tempi di inattività gli errori imprevisti, comprendere le voci dipendenti e collaborare gli stakeholder interessati.
Modello di informazioni sulla derivazione dei dati
Nella sua forma di base, la derivazione è un record dei dati che vengono trasformati da sorgenti a target. L'API Data Lineage raccoglie queste informazioni e li organizza in un modello dei dati gerarchico utilizzando i concetti di processi, corse ed eventi.
Processo
Un processo è la definizione di un'operazione di trasformazione dei dati supportata
di un sistema specifico. Nel contesto della derivazione di BigQuery,
un process
è uno dei tipi di job supportati.
Esegui
Per esecuzione si intende l'esecuzione di un processo. I processi possono avere più esecuzioni.
Le esecuzioni contengono dettagli come ora di inizio e di fine, stato o attributi aggiuntivi.
Per ulteriori informazioni, consulta
Riferimento della risorsa run
.
Evento
Un evento rappresenta un momento in cui un'operazione di trasformazione dei dati ha richiesto luogo e ha determinato lo spostamento dei dati tra un'entità di origine e un'entità target.
Gli eventi contengono un elenco di link che definiscono la voce come origine e quale era il target in un determinato evento. Mentre gli eventi sono utilizzati per calcolare grafici di visualizzazione della derivazione, non sono esposti direttamente nella console Google Cloud. Puoi crearle, leggerle ed eliminarle (ma non aggiornarle) utilizzando l'API Data Lineage.
Esempio
Considera l'esempio seguente in cui i dati vengono copiati tra BigQuery tabelle:
Il modo in cui i dati si spostano tra le tabelle è descritto dal processo di derivazione
(rappresentata nel grafico dalla
: potrebbe essere una query SQL CREATE TABLE AS SELECT
o un'istruzione INSERT
.
Ogni esecuzione di quell'istruzione SQL rappresenterebbe una singola esecuzione.
Le esecuzioni contengono eventi, ovvero record delle tabelle utilizzate come origini e
che sono gli obiettivi. In questo esempio, le tabelle
customer_year
e customers
sono entrambe le fonti
per la tabella target top_customer
.
Grafico di visualizzazione della derivazione
I grafici di derivazione rappresentano le informazioni raccolte dall'API Data Lineage per una determinata voce di Data Catalog. Con radice si intende la voce che stai visualizzare la derivazione.
Dataplex funziona con l'API Data Lineage per identificare le voci la cui il nome completo corrisponde alle entità riconosciute dalla derivazione dei dati. Per le voci Dataplex corrispondenti, puoi accedere alla derivazione scheda sulla pagina dei dettagli e visualizzare il grafico.
I grafici di derivazione mostrano due tipi di elementi:
Pulsanti rettangolari larghi che rappresentano entità coinvolte nella costruzione informazioni sulla derivazione come origini o target di un evento di derivazione.
Pulsanti quadrati più piccoli che rappresentano i processi responsabili della creazione o aggiornare le entità di origine o di destinazione. I pulsanti di procedura utilizzano icone specifici del sistema di origine che li ha segnalati all'API Data Lineage. Ad esempio, i job BigQuery utilizzano Icona di .
Visualizzazione elenco di derivazione
La visualizzazione elenco di derivazione mostra informazioni dettagliate sulla derivazione per le entità in un un'unica tabella.
Rispetto al grafico di visualizzazione della derivazione, migliore per la visualizzazione per grafici di derivazione relativamente piccoli, la visualizzazione Elenco di derivazione ti consente di visualizzare per le entità con molte connessioni.
L'immagine seguente mostra un esempio della visualizzazione dell'elenco di derivazione nel nella console Google Cloud. L'elenco che segue descrive l'immagine in dettaglio.
Ogni riga della tabella rappresenta un singolo collegamento di derivazione tra due voci. Nel grafico, questi nomi sono rappresentati come legami di derivazione tra due inclusi eventuali nodi di processo intermedi. Ad esempio,
Source
eTarget
sono nodi di asset, con possibilmente più nodi di processo intermedi.L'opzione Direzione specifica la parte del flusso di dati da visualizzare nel rispetto all'asset principale:
Upstream: visualizza informazioni sulla derivazione per le voci che sono origini dati per la voce selezionata. Nel grafico della derivazione, queste voci sono le voci visualizzati a sinistra della voce selezionata.
downstream: visualizza informazioni sulla derivazione per le voci che utilizzano o sono derivato dalla voce selezionata. Nel grafico della derivazione, queste voci sono voci visualizzate a destra di quelle selezionate.
Per profondità si intende la distanza dalla risorsa principale, da un'origine o come risorsa derivata. La visualizzazione elenco mostra fino a 1000 link di derivazione, con la profondità massima dalla radice di 10 link di derivazione. Se è presente una derivazione al di fuori di questo intervallo, riceverai una notifica. Puoi vedere la derivazione al di fuori di questo intervallo selezionando il nome di un'entità diversa nella visualizzazione elenco.
Il riquadro Dettagli mostra informazioni sull'origine del link, sulla destinazione del collegamento e di tutti i processi che lo hanno creato.
Puoi personalizzare le colonne visualizzate nella tabella e filtrare che consentono di analizzare i dati e visualizzare i risultati. Puoi anche esportare i risultati in un file CSV.
Monitoraggio automatizzato della derivazione dei dati
Quando abiliti l'API Data Lineage, i sistemi Google Cloud che supportano la derivazione dei dati inizierà a segnalare lo spostamento dei dati. Ogni sistema integrato può inviare informazioni sulla derivazione per diverse origini dati. Per ulteriori dettagli su ogni prodotto supportato.
BigQuery
Cause dell'abilitazione della derivazione dei dati nel tuo progetto BigQuery Dataplex per registrare automaticamente le informazioni sulla derivazione per:
- Nuove tabelle derivanti dai seguenti job BigQuery:
- Job di copia
- Job di caricamento che utilizzano URI Cloud Storage da cui caricare i dati in qualsiasi formato consentito Cloud Storage*
- Eseguire query su job che utilizzano i seguenti dati Definition Language (DDL) in SQL standard di Google:
- Tabelle esistenti a seguito dell'utilizzo della seguente manipolazione dei dati
del linguaggio (DML) nell'SQL standard di Google:
- SELEZIONA in relazione a uno qualsiasi dei tipi di tabella elencati:
- INSERISCI SELEZIONE
- UNISCI
- AGGIORNA
- ELIMINA
Sono rappresentati i job di copia, query e caricamento di BigQuery come processi (fai clic sull'icona a forma di specchio) sul grafico di visualizzazione della derivazione per vedere il processo dettagli). Ogni processo contiene il job_id di BigQuery nel attributi per il job BigQuery più recente.
Altri servizi
La derivazione dei dati supporta l'integrazione con Servizi Google Cloud:
Derivazione dei dati per origini dati personalizzate
Puoi utilizzare l'API Data Lineage in Dataplex per registrare manualmente le informazioni sulla derivazione per qualsiasi origine dati non supportato dai sistemi integrati.
Dataplex può creare grafici di visualizzazione per i dati registrati manualmente
se utilizzi una derivazione
fullyQualifiedNames
che corrispondono alla definizione
nomi qualificati di voci di Data Catalog esistenti. Se vuoi registrare
per un'origine dati personalizzata, devi prima creare
voce personalizzata di Data Catalog.
Ogni processo per l'origine dati personalizzata può contenere sql
chiave negli attributi
dall'elenco di lettura. Il valore di questa chiave verrà utilizzato per visualizzare l'evidenziazione del codice nei dettagli
riquadro del grafico della derivazione dei dati. L'istruzione SQL verrà visualizzata così com'era
fornito. L'utente ha la responsabilità di filtrare le informazioni sensibili. La
il nome della chiave sql
è sensibile alle maiuscole.
OpenLineage
Se stai già utilizzando OpenLineage per raccogliere informazioni sulla derivazione da altri di origini dati, puoi importare eventi OpenLineage in Dataplex e visualizzare questi eventi nella console Google Cloud. Per maggiori dettagli, vedi Eseguire l'integrazione con OpenLineage.
Limitazioni
- Tutte le informazioni sulla derivazione vengono conservate nel sistema solo per 30 giorni.
- Le informazioni sulla derivazione vengono mantenute dopo la rimozione dell'origine dati correlata. Vale a dire, se rimuovi una tabella BigQuery e il relativo Data Catalog puoi comunque leggere la derivazione per quella tabella utilizzando l'API per un massimo di 30 giorni.
Accedi alla derivazione dei dati
Puoi accedere alle funzionalità di derivazione dei dati utilizzando:
- Pagine dei dettagli delle voci nella UI di Dataplex nella console Google Cloud. Vedi Visualizzare i grafici della derivazione.
- Pagina dei dettagli della tabella nella UI di BigQuery nella console Google Cloud. Vedi Visualizzare i grafici della derivazione.
- Pagine del set di dati e del registro dei modelli nella UI di Vertex AI nella console Google Cloud. Vedi Visualizzare i grafici della derivazione.
- API Data Lineage
Prezzi
Dataplex utilizza lo SKU di elaborazione premium per la derivazione dei dati. Per ulteriori informazioni, vedi Prezzi.
Per separare i costi di derivazione dei dati da altri addebiti nel SKU di elaborazione premium Dataplex, nella Report Fatturazione Cloud, utilizza l'etichetta
goog-dataplex-workload-type
con valoreLINEAGE
.
Passaggi successivi
Scopri come monitorare la derivazione dei dati per la copia di una tabella BigQuery ed eseguire query sui job.
Scopri come utilizzare la derivazione dei dati con i sistemi di Google Cloud.
Per informazioni amministrative, consulta le sezioni IAM aggiornate, le valutazioni sulla derivazione e l'audit logging della derivazione dei dati.