Esplora la derivazione dei dati utilizzando i metadati


Questo tutorial mostra come utilizzare Cloud Data Fusion per esplorare la lineagia dei dati: le origini dei dati e il loro spostamento nel tempo.

Per informazioni sull'integrazione della derivazione degli asset di Data Catalog, vedi Visualizzare la derivazione in Dataplex.

Derivazione dei dati di Cloud Data Fusion

Puoi utilizzare la derivazione dei dati di Cloud Data Fusion per:

  • Rileva la causa principale degli eventi di dati non validi.

  • Esegui un'analisi dell'impatto prima di apportare modifiche ai dati.

Cloud Data Fusion fornisce la derivazione a livello di set di dati e di campo ed è vincolata al tempo per mostrare la derivazione nel tempo.

  • La derivazione a livello di set di dati mostra la relazione tra set di dati e pipeline in un intervallo di tempo selezionato.

  • La derivazione a livello di campo mostra le operazioni che sono state eseguite su un insieme di campi nel set di dati di origine per produrre un insieme diverso di campi nel set di dati di destinazione.

Scenario tutorial

In questo tutorial lavorerai con due pipeline:

  • La pipeline Shipment Data Cleansing legge i dati non elaborati di spedizione da un piccolo set di dati campione e applica le trasformazioni per pulire i dati.

  • Dopodiché, la pipeline Delayed Shipments USA legge i dati di spedizione puliti, li analizza e trova le spedizioni all'interno degli Stati Uniti che hanno subito un ritardo superiore a una soglia.

Queste pipeline di tutorial mostrano uno scenario tipico in cui i dati non elaborati vengono puliti e poi inviati per l'elaborazione downstream. Questo percorso di dati, dai dati non elaborati ai dati di spedizione puliti fino all'output analitico, può essere esplorato utilizzando la funzionalità di derivazione di Cloud Data Fusion.

Obiettivi

  • Crea derivazione eseguendo pipeline di esempio
  • Esplora la derivazione a livello di set di dati e di campo
  • Scopri come trasferire le informazioni sull'handshake dalla pipeline upstream alla pipeline downstream

Costi

In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Per generare una stima dei costi basata sull'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud potrebbero essere idonei per una prova gratuita.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery APIs.

    Enable the APIs

  7. Crea un'istanza di Cloud Data Fusion.
  8. Fai clic sui seguenti link per scaricare questi piccoli set di dati di esempio sulla tua macchina locale:

Apri l'interfaccia utente di Cloud Data Fusion

Quando utilizzi Cloud Data Fusion, utilizzi sia la console Google Cloud sia l'interfaccia utente separata di Cloud Data Fusion. Nella console Google Cloud, puoi creare un progetto della console Google Cloud e creare ed eliminare istanze di Cloud Data Fusion. Nell'interfaccia utente di Cloud Data Fusion, puoi utilizzare le varie pagine, ad esempio Lineage, per accedere alle funzionalità di Cloud Data Fusion.

  1. Nella console Google Cloud, apri la pagina Istanze.

    Apri la pagina Istanze

  2. Nella colonna Azioni per l'istanza, fai clic sul link Visualizza istanza. L'interfaccia utente di Cloud Data Fusion si apre in una nuova scheda del browser.

  3. Nel riquadro Integra, fai clic su Studio per aprire la pagina Studio di Cloud Data Fusion.

Esegui il deployment e le pipeline

  1. Importa i dati di spedizione non elaborati. Nella pagina Studio, fai clic su Importa o fai clic su + > Pipeline > Importa, quindi seleziona e importa la pipeline di pulizia dei dati di spedizione che hai scaricato Prima di iniziare.

  2. Eseguire il deployment della pipeline. Fai clic su Esegui il deployment in alto a destra nella pagina Studio. Dopo il deployment, si apre la pagina Pipeline.

  3. Eseguire la pipeline. Fai clic su Esegui nella parte in alto al centro della pagina Pipeline.

  4. Importa, distribuisci ed esegui i dati e la pipeline di Spedizioni ritardate. Quando lo stato della pulizia dei dati di spedizione mostra Riuscito, applica i passaggi precedenti ai dati di Spedizioni ritardate per gli Stati Uniti che hai scaricato nella sezione Prima di iniziare. Torna alla pagina Studio per importare i dati, quindi esegui il deployment di questa seconda pipeline ed eseguila dalla pagina Pipeline. Dopo il completamento della seconda pipeline, procedi con i passaggi rimanenti.

Scopri i set di dati

Devi scoprire un set di dati prima di esplorarne la derivazione. Seleziona Metadati dal pannello di navigazione a sinistra dell'interfaccia utente di Cloud Data Fusion per aprire la pagina Ricerca dei metadati. Poiché il set di dati Shipment Data Cleansing specificava Cleaned-Shipments come set di dati di riferimento, inserisci shipment nella casella di ricerca. I risultati di ricerca includono questo set di dati.

Utilizzo dei tag per individuare i set di dati

Una ricerca nei metadati scopre i set di dati che sono stati utilizzati, elaborati o generati dalle pipeline di Cloud Data Fusion. Le pipeline vengono eseguite su un framework strutturato che genera e raccoglie metadati tecnici e operativi. I metadati tecnici includono nome, tipo, schema, campi, ora di creazione e informazioni di elaborazione del set di dati. Queste informazioni tecniche vengono utilizzate dalle funzionalità di ricerca e derivazione dei metadati di Cloud Data Fusion.

Cloud Data Fusion supporta anche l'annotazione di set di dati con metadati aziendali, come tag e proprietà chiave-valore, che possono essere utilizzati come criteri di ricerca. Ad esempio, per aggiungere e cercare un'annotazione dei tag aziendali nel set di dati di spedizione non elaborati:

  1. Fai clic sul pulsante Proprietà del nodo Dati di spedizione non elaborati nella pagina Pipeline di pulizia dei dati di spedizione per aprire la pagina Proprietà di Cloud Storage.

  2. Fai clic su Visualizza metadati per aprire la pagina Cerca.

  3. In Tag aziendali, fai clic su +, poi inserisci il nome del tag (sono consentiti caratteri alfanumerici e trattini bassi) e premi Invio.

Esplora derivazione

Derivazione a livello di set di dati

Fai clic sul nome del set di dati Cleaned-Shipments elencato nella pagina di ricerca (da Set di dati di Discover), quindi fai clic sulla scheda Derivazione. Il grafico di derivazione mostra che questo set di dati è stato generato dalla pipeline Shipments-Data-Cleansing, che ha utilizzato il set di dati Raw_Shipping_Data.

Le frecce sinistra e destra consentono di spostarsi avanti e indietro attraverso qualsiasi derivazione del set di dati precedente o successiva. In questo esempio, il grafico mostra la derivazione completa per il set di dati Cleaned-Shipments.

Derivazione a livello di campo

La derivazione a livello di campo di Cloud Data Fusion mostra la relazione tra i campi di un set di dati e le trasformazioni eseguite su un insieme di campi per produrre un insieme diverso. Come la derivazione a livello di set di dati, la derivazione a livello di campo è vincolata al tempo e i risultati cambiano nel tempo.

Proseguendo dal passaggio derivazione a livello di set di dati, fai clic sul pulsante Derivazione a livello di campo in alto a destra nel grafico di derivazione a livello di set di dati delle spedizioni pulite per visualizzare il relativo grafico di derivazione a livello di campo.

Il grafico della derivazione a livello di campo mostra le connessioni tra i campi. Puoi selezionare un campo per visualizzarne la derivazione. Seleziona Visualizza > Campo Blocca per visualizzare solo la derivazione di quel campo.

Seleziona Visualizza > Visualizza impatto per eseguire un'analisi dell'impatto.

I link causa e impatto mostrano le trasformazioni eseguite su entrambi i lati di un campo in un formato libro mastro leggibile. Queste informazioni possono essere essenziali per i report e la governance.

Esegui la pulizia

Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Dopo aver completato il tutorial, pulisci le risorse che hai creato su Google Cloud in modo che non occupino quota e non ti vengano addebitati costi in futuro. Le sezioni seguenti descrivono come eliminare o disattivare queste risorse.

Elimina il set di dati del tutorial

Questo tutorial crea un set di dati logistics_demo con diverse tabelle nel tuo progetto.

Puoi eliminare il set di dati dalla UI web di BigQuery nella console Google Cloud.

Elimina l'istanza di Cloud Data Fusion

Segui le istruzioni per eliminare l'istanza di Cloud Data Fusion.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Passaggi successivi