Esplorare la derivazione dei dati utilizzando i metadati


Questo tutorial illustra come utilizzare Cloud Data Fusion per scoprire la derivazione dei dati: le origini dei dati e il loro spostamento nel tempo.

Genealogia dei dati di Cloud Data Fusion

Puoi utilizzare la consistenza dei dati di Cloud Data Fusion per:

  • Rileva la causa principale degli eventi relativi ai dati errati.

  • Esegui un'analisi dell'impatto prima di apportare modifiche ai dati.

Ti consigliamo di utilizzare l'integrazione della struttura degli asset in Dataplex. Per saperne di più, consulta Visualizza la derivazione in Dataplex.

Puoi anche visualizzare la consistenza a livello di set di dati e campo in Studio di Cloud Data Fusion utilizzando l'opzione Metadati, che mostra la consistenza per un intervallo di tempo selezionato.

  • La derivazione a livello di set di dati mostra la relazione tra set di dati e pipeline.

  • La cronologia a livello di campo mostra le operazioni eseguite su un insieme di campi nel set di dati di origine per produrre un insieme diverso di campi nel set di dati di destinazione.

A partire da Cloud Data Fusion 6.9.2.4, se non monitori la derivazione in Cloud Data Fusion, ti consigliamo di disattivare l'emissione della derivazione a livello di campo nell'istanza utilizzando il metodo patch:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer
$(gcloud auth print-access-token)"
'https://datafusion.googleapis.com/v1beta1/projects/PROJECT_ID/locations/REGION/instances/INSTANCE_ID?updateMask=options'
-d '{ "options": { "metadata.messaging.field.lineage.emission.enabled": "false" } }'

Sostituisci quanto segue:

  • PROJECT_ID: l' Google Cloud ID progetto
  • REGION: la posizione del Google Cloud progetto
  • INSTANCE_ID: l'ID istanza Cloud Data Fusion

Scenario del tutorial

In questo tutorial lavorerai con due pipeline:

  • La pipeline Shipment Data Cleansing legge i dati non elaborati delle spedizioni da un piccolo set di dati di esempio e applica trasformazioni per pulire i dati.

  • La pipeline Delayed Shipments USA legge quindi i dati delle spedizioni puliti, li analizza e trova le spedizioni all'interno degli Stati Uniti che hanno subito ritardi superiori a una determinata soglia.

Queste pipeline del tutorial mostrano uno scenario tipico in cui i dati non elaborati vengono pulizia e poi inviati per l'elaborazione successiva. Questo percorso dei dati dai dati non elaborati ai dati di spedizione puliti fino all'output di analisi può essere esplorato utilizzando la funzionalità di derivazione dei dati di Cloud Data Fusion.

Obiettivi

  • Genera la derivazione eseguendo pipeline di esempio
  • Esplorare la derivazione a livello di set di dati e di campo
  • Scopri come passare le informazioni di handshake dalla pipeline a monte alla pipeline a valle

Costi

In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi Google Cloud utenti potrebbero avere diritto a una prova gratuita.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery APIs.

    Enable the APIs

  7. Crea un'istanza Cloud Data Fusion.
  8. Fai clic sui seguenti link per scaricare questi piccoli set di dati di esempio sul tuo computer locale:

Apri l'interfaccia utente di Cloud Data Fusion

Quando utilizzi Cloud Data Fusion, utilizzi sia la console Google Cloud sia l'interfaccia utente separata di Cloud Data Fusion. Nella console Google Cloud, puoi creare un progetto Google Cloud, nonché creare ed eliminare istanze Cloud Data Fusion. Nell'interfaccia utente di Cloud Data Fusion, puoi utilizzare le varie pagine, ad esempio Derivazione, per accedere alle funzionalità di Cloud Data Fusion.

  1. Nella console Google Cloud, apri la pagina Istanze.

    Apri la pagina Istanze

  2. Nella colonna Azioni per l'istanza, fai clic sul link Visualizza istanza. L'interfaccia utente di Cloud Data Fusion si apre in una nuova scheda del browser.

  3. Nel riquadro Integra, fai clic su Studio per aprire la pagina Studio di Cloud Data Fusion.

Esegui il deployment e l'esecuzione delle pipeline

  1. Importa i dati di spedizione non elaborati. Nella pagina Studio, fai clic su Importa o su + > Pipeline > Importa, poi seleziona e importa la pipeline di pulizia dei dati di spedizione che hai scaricato in Prima di iniziare.

  2. Esegui il deployment della pipeline. Fai clic su Esegui il deployment in alto a destra nella pagina Studio. Dopo il deployment, si apre la pagina Pipeline.

  3. Esegui la pipeline. Fai clic su Esegui in alto al centro della pagina Pipeline.

  4. Importa, esegui il deployment ed esegui la pipeline e i dati relativi alle spedizioni in ritardo. Quando lo stato della pulizia dei dati di spedizione è Successo, applica i passaggi precedenti ai dati sulle spedizioni in ritardo negli Stati Uniti che hai scaricato nella sezione Prima di iniziare. Torna alla pagina Studio per importare i dati, quindi esegui il deployment e l'esecuzione di questa seconda pipeline dalla pagina Pipeline. Dopo il completamento della seconda pipeline, prosegui con i passaggi rimanenti.

Scoprire set di dati

Devi scoprire un set di dati prima di esplorarne la struttura. Seleziona Metadati nel pannello di navigazione a sinistra dell'interfaccia utente di Cloud Data Fusion per aprire la pagina Ricerca dei metadati. Poiché il set di dati di pulizia dei dati di spedizione ha specificato Spedizioni pulite come set di dati di riferimento, inserisci spedizione nella casella di ricerca. I risultati di ricerca includono questo set di dati.

Utilizzare i tag per scoprire i set di dati

Una ricerca dei metadati consente di scoprire i set di dati che sono stati utilizzati, elaborati o generati dalle pipeline di Cloud Data Fusion. Le pipeline vengono eseguite su un framework strutturato che genera e raccoglie metadati tecnici e operativi. I metadati tecnici includono il nome, il tipo, lo schema, i campi, il momento di creazione e le informazioni di elaborazione del set di dati. Queste informazioni tecniche vengono utilizzate dalle funzionalità di ricerca e di derivazione dei metadati di Cloud Data Fusion.

Cloud Data Fusion supporta anche l'annotazione dei set di dati con metadati aziendali, come tag e proprietà chiave-valore, che possono essere utilizzati come criteri di ricerca. Ad esempio, per aggiungere e cercare un'annotazione del tag dell'attività nel set di dati Dati di spedizione non elaborati:

  1. Fai clic sul pulsante Proprietà del nodo Dati di spedizione non elaborati nella pagina Pipeline di pulizia dei dati di spedizione per aprire la pagina Proprietà Cloud Storage.

  2. Fai clic su Visualizza metadati per aprire la pagina Ricerca.

  3. In Tag attività, fai clic su +, poi inserisci un nome del tag (sono consentiti caratteri alfanumerici e trattini bassi) e premi Invio.

Esplora derivazione

Derivazione a livello di set di dati

Fai clic sul nome del set di dati Spedizioni pulite elencato nella pagina di ricerca (da Scopri set di dati), quindi sulla scheda Genealogia. Il grafico della struttura mostra che questo set di dati è stato generato dalla pipeline di pulizia dei dati delle spedizioni, che ha utilizzato il set di dati Raw_Shipping_Data.

Le frecce sinistra e destra ti consentono di spostarti avanti e indietro nel flusso di qualsiasi set di dati precedente o successivo. In questo esempio, il grafico mostra la genealogia completa del set di dati Spedizioni pulite.

Derivazione a livello di campo

La derivazione a livello di campo di Cloud Data Fusion mostra la relazione tra i campi di un set di dati e le trasformazioni eseguite su un insieme di campi per produrre un insieme diverso di campi. Come la derivazione a livello di set di dati, la derivazione a livello di campo è vincolata dal tempo e i relativi risultati cambiano nel tempo.

Continuando dal passaggio Derivazione a livello di set di dati, fai clic sul pulsante Derivazione a livello di campo in alto a destra nel grafico della derivazione a livello di set di dati Spedizioni pulite per visualizzare il grafico della derivazione a livello di campo.

Il grafico della struttura a livello di campo mostra le connessioni tra i campi. Puoi selezionare un campo per visualizzarne la linea di discendenza. Seleziona Visualizza > Blocca campo per visualizzare solo la linea di trasmissione di quel campo.

Seleziona Visualizza > Visualizza impatto per eseguire un'analisi di impatto.

I link di causa e impatto mostrano le trasformazioni eseguite su entrambi i lati di un campo in un formato di registro leggibile. Queste informazioni possono essere essenziali per i report e la governance.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Al termine del tutorial, elimina le risorse che hai creato su Google Cloud in modo che non occupino quota e non ti vengano addebitate in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina il set di dati del tutorial

Questo tutorial crea un set di dati logistics_demo con diverse tabelle nel progetto.

Puoi eliminare il set di dati dall'interfaccia utente web di BigQuery nella console Google Cloud.

Elimina l'istanza Cloud Data Fusion

Segui le istruzioni per eliminare l'istanza Cloud Data Fusion.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Passaggi successivi