Monitorare la derivazione dei dati per una tabella BigQuery

La derivazione dei dati consente di monitorare il modo in cui i dati vengono spostati nei sistemi: da dove provengono, dove vengono inviati e a quali trasformazioni sono sottoposti.

Scopri come iniziare a monitorare la consistenza dei dati per i job di copia e query di BigQuery:

  1. Copia due tabelle da un set di dati new_york_taxi_trips disponibile pubblicamente.

  2. Combina il numero totale di corse in taxi di entrambe le tabelle in una nuova tabella.

  3. Visualizza un grafico di visualizzazione della struttura per tutte e tre le operazioni.

Prima di iniziare

Configura il progetto:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per visualizzare i grafici di visualizzazione della struttura, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Aggiungere un set di dati pubblico al progetto

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, fai clic su Aggiungi.

  3. Nel riquadro Aggiungi, cerca Public datasets e seleziona il risultato Set di dati pubblici.

  4. Nel riquadro Marketplace, cerca NYC TLC Trips e fai clic sul risultato Corse della TLC di New York City.

  5. Fai clic su Visualizza set di dati.

In questo modo, il progetto del set di dati pubblico viene aggiunto come riferimento e puoi visualizzarlo nel riquadro Explorer. Il riquadro dei dettagli mostra Informazioni sul set di dati, tra cui ID set di dati, Posizione dei dati e Data dell'ultima modifica.

Creare un set di dati nel progetto

  1. Nel riquadro Explorer, seleziona il progetto in cui vuoi creare il set di dati.

  2. Fai clic su Azioni e poi su Crea set di dati.

  3. Nella pagina Crea set di dati, inserisci data_lineage_demo nel campo ID set di dati. Lascia invariati i valori predefiniti degli altri campi.

  4. Fai clic su Crea set di dati.

  5. Nel riquadro Explorer, fai clic sul nuovo data_lineage_demo aggiunto.

Il riquadro dei dettagli mostra le Informazioni sul set di dati.

Copia due tabelle accessibili pubblicamente nel tuo set di dati

  1. Apri un editor di query: nel riquadro dei dettagli, accanto alla scheda data_lineage_demo, fai clic su (Crea nuova query). Questo passaggio crea una scheda denominata Untitled.

  2. Nell'editor di query, copia la prima tabella inserendo la seguente query. Sostituisci PROJECT_ID con l'identificatore del progetto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Fai clic su Esegui. Questo passaggio crea la prima tabella, denominata nyc_green_trips_2021.

  4. Nel riquadro Risultati delle query, fai clic su Vai alla tabella. Questo passaggio mostra i contenuti della prima tabella.

  5. Nell'editor query, copia la seconda tabella sostituendo la query precedente con la seguente. Sostituisci PROJECT_ID con l'identificatore del tuo progetto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Fai clic su Esegui. Questo passaggio crea la seconda tabella, denominata nyc_green_trips_2022.

  7. Nel riquadro Risultati delle query, fai clic su Vai alla tabella. Questo passaggio mostra i contenuti della seconda tabella.

Aggregare i dati in una nuova tabella

  1. Nell'editor delle query, inserisci la seguente query. Sostituisci PROJECT_ID con l'identificatore del tuo progetto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Fai clic su Esegui. Questo passaggio crea una tabella combinata denominata total_green_trips_22_21.

  3. Nel riquadro Risultati delle query, fai clic su Vai alla tabella. Questo passaggio mostra la tabella combinata.

Visualizza il grafico della struttura in Dataplex

  1. Nella console Google Cloud, vai alla pagina Ricerca di Dataplex.

    Vai alla pagina Cerca di Dataplex

  2. Per Scegli la piattaforma di ricerca, seleziona Data Catalog come modalità di ricerca.

  3. Nella casella Cerca, inserisci total_green_trips_22_21 e fai clic su Cerca.

  4. Nell'elenco dei risultati, fai clic su total_green_trips_22_21. Questo passaggio mostra la scheda Dettagli della tabella BigQuery.

  5. Fai clic sulla scheda Linage.

La tabella total_green_trips_22_21 con il riquadro dei dettagli agganciato in basso.
Figura 1. Derivazione dei dati con dettagli dei nodi

Nel grafico della cronologia, ogni nodo rettangolare rappresenta una tabella, che può essere originale, copiata o combinata. Puoi:

  • Per mostrare o nascondere l'origine di una tabella, fai clic su + (Espandi) o - (Comprimi).

  • Per visualizzare le informazioni della tabella, fai clic su un nodo. Questo passaggio mostra un riquadro Dettagli del nodo.

  • Per visualizzare le informazioni sulla procedura, fai clic su visualizza i dettagli della procedura di determinazione della derivazione. Questo passaggio mostra un riquadro Dettagli del processo che mostra il job che ha trasformato una tabella di origine in una tabella di destinazione.

La tabella intermedia nyc_green_trips_2021 con il riquadro dei dettagli agganciato in basso.
Figura 2. Derivazione dei dati con dettagli della procedura

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Eliminazione del set di dati

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, cerca il set di dati data_lineage_demo che hai creato.

  3. Fai clic con il tasto destro del mouse sul set di dati e seleziona Elimina.

  4. Conferma l'azione di eliminazione.

Passaggi successivi