Monitorare la derivazione dei dati per una tabella BigQuery

La derivazione dei dati consente di monitorare il modo in cui i dati si spostano attraverso i sistemi: da dove provengono, dove vengono trasmessi e quali trasformazioni vengono applicate.

Scopri come iniziare a monitorare la derivazione dei dati per i job di copia e query di BigQuery:

  1. Copia due tabelle da un set di dati new_york_taxi_trips disponibile pubblicamente.

  2. Combina il numero totale di corse in taxi da entrambi i tavoli in una nuova tabella.

  3. Mostra un grafico di visualizzazione della derivazione per tutte e tre le operazioni.

Prima di iniziare

Configura il progetto:

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Abilita le API Data Catalog, BigQuery, and data lineage.

    Abilita le API

  5. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  6. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  7. Abilita le API Data Catalog, BigQuery, and data lineage.

    Abilita le API

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per visualizzare i grafici di visualizzazione della derivazione, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.

Potresti anche essere in grado di ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Aggiungi un set di dati pubblico al progetto

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Spazio di esplorazione, fai clic su Aggiungi.

  3. Nel riquadro Aggiungi, cerca Public datasets e seleziona il risultato Set di dati pubblici.

  4. Nel riquadro Marketplace, cerca NYC TLC Trips e fai clic sul risultato NYC TLC Trip.

  5. Fai clic su Visualizza set di dati.

Questo passaggio aggiunge il set di dati new_york_taxi_trips al progetto. Il riquadro dei dettagli mostra Informazioni sul set di dati, incluse informazioni come ID set di dati, Località dei dati e Data dell'ultima modifica.

Crea un set di dati nel progetto

  1. Nel riquadro Explorer, seleziona il progetto in cui vuoi creare il set di dati.

  2. Fai clic sull'icona Azioni e poi su Crea set di dati.

  3. Nella pagina Crea set di dati, nel campo ID set di dati inserisci: data_lineage_demo. Lascia invariati i valori predefiniti degli altri campi.

  4. Fai clic su Crea set di dati.

  5. Nel riquadro Explorer, fai clic sul data_lineage_demo appena aggiunto.

Il riquadro dei dettagli mostra le relative Informazioni sul set di dati.

Copia due tabelle accessibili pubblicamente nel tuo set di dati

  1. Apri un editor di query: nel riquadro dei dettagli, accanto alla scheda denominata data_lineage_demo, fai clic su (Crea nuova query). Questo passaggio crea una scheda denominata Untitled.

  2. Nell'Editor query, copia la prima tabella inserendo la query seguente. Sostituisci PROJECT_ID con l'identificatore del tuo progetto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Fai clic su Esegui. Questo passaggio crea la prima tabella, denominata nyc_green_trips_2021.

  4. Nel riquadro Risultati delle query, fai clic su Vai alla tabella. Questo passaggio visualizza i contenuti della prima tabella.

  5. Nell'Editor query, copia la seconda tabella sostituendo la query precedente con la seguente query. Sostituisci PROJECT_ID con l'identificatore del tuo progetto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Fai clic su Esegui. Questo passaggio crea la seconda tabella, denominata nyc_green_trips_2022.

  7. Nel riquadro Risultati delle query, fai clic su Vai alla tabella. Questo passaggio visualizza il contenuto della seconda tabella.

Aggrega i dati in una nuova tabella

  1. Nell'Editor query, inserisci la query riportata di seguito. Sostituisci PROJECT_ID con l'identificatore del progetto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Fai clic su Esegui. Questo passaggio crea una tabella combinata denominata total_green_trips_22_21.

  3. Nel riquadro Risultati delle query, fai clic su Vai alla tabella. Questo passaggio visualizza la tabella combinata.

Visualizza il grafico di derivazione in Dataplex

  1. Apri la pagina Ricerca Dataplex.

    Apri la ricerca Dataplex

  2. Nella casella Cerca, inserisci total_green_trips_22_21 e fai clic su Cerca.

  3. Nell'elenco dei risultati, fai clic su total_green_trips_22_21. Questo passaggio visualizza la scheda Dettagli della tabella BigQuery.

  4. Fai clic sulla scheda Lignaggio.

Uno screenshot della tabella total_green_trips_22_21 con il riquadro dei dettagli agganciato in basso.
Figura 1. Derivazione dei dati con dettagli dei nodi

Nel grafico di derivazione, ogni nodo rettangolare rappresenta una tabella (originale, copiata o combinata). Ecco cosa puoi fare:

  • Mostra o nasconde l'origine di una tabella facendo clic su + (Espandi) o - (Comprimi).

  • Mostrare le informazioni della tabella facendo clic su un nodo. Questo passaggio visualizza un riquadro Dettagli del nodo.

  • Mostra le informazioni di processo facendo clic su un'icona di elaborazione icona processo di derivazione. Questo passaggio mostra un riquadro Dettagli del processo che mostra il job che ha trasformato una tabella di origine in una tabella di destinazione.

Uno screenshot della tabella nyc_green_trips_2021 intermedia con il riquadro dei dettagli agganciato in basso.
Figura 2. Derivazione dei dati con dettagli del processo

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Eliminazione del set di dati

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, cerca il set di dati data_lineage_demo che hai creato.

  3. Fai clic con il tasto destro del mouse sul set di dati e seleziona Elimina.

  4. Conferma l'azione di eliminazione.

Passaggi successivi