Monitora la derivazione dei dati per una tabella BigQuery
Derivazione dei dati consente di tenere traccia del movimento dei dati nei sistemi: da dove provengono, dove a cui viene trasmesso e quali trasformazioni vengono applicate.
Scopri come iniziare a monitorare la derivazione dei dati per Job di query e copia di BigQuery:
Copia due tabelle da un set di dati
new_york_taxi_trips
disponibile pubblicamente.Combina il numero totale di corse in taxi da entrambi i tavoli in una nuova tabella.
Visualizzare un grafico di visualizzazione della derivazione per tutte e tre le operazioni.
Prima di iniziare
Configura il progetto:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog, BigQuery, and data lineage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog, BigQuery, and data lineage APIs.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per visualizzare i grafici di visualizzazione della derivazione, chiedi all'amministratore di concederti seguenti ruoli IAM:
-
Visualizzatore Data Catalog (
roles/datacatalog.viewer
) sul progetto di risorsa Data Catalog -
Visualizzatore derivazione dati (
roles/datalineage.viewer
) del progetto in cui utilizzi BigQuery -
Visualizzatore dati BigQuery (
roles/bigquery.dataViewer
) del progetto in cui utilizzi BigQuery
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite la ruoli o altri ruoli predefiniti ruoli.
Aggiungi un set di dati pubblico al progetto
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, fai clic su Aggiungi.
Nel riquadro Aggiungi, cerca
Public datasets
e seleziona Risultato Set di dati pubblici.Nel riquadro Marketplace, cerca
NYC TLC Trips
e fai clic sul Risultato NYC TLC Trips.Fai clic su Visualizza set di dati.
Questo passaggio aggiunge il set di dati new_york_taxi_trips al tuo progetto. I dettagli mostra Informazioni sul set di dati, incluse informazioni quali ID set di dati, Località dei dati e Ultima modifica.
Crea un set di dati nel progetto
Nel riquadro Explorer, seleziona il progetto in cui vuoi creare del set di dati.
Fai clic sull'icona
Azioni e poi su Crea del set di dati.Nella pagina Crea set di dati, nel campo ID set di dati, inserisci:
data_lineage_demo
. Lascia invariati i valori predefiniti degli altri campi.Fai clic su Crea set di dati.
Nel riquadro Explorer, fai clic sul
data_lineage_demo
appena aggiunto.
Il riquadro dei dettagli mostra le informazioni sul set di dati.
Copia due tabelle accessibili pubblicamente nel set di dati
Apri un editor di query: nel riquadro dei dettagli, accanto alla scheda denominata
data_lineage_demo
, fai clic su (Crea nuova query). Questo passaggio crea una scheda denominataUntitled
.Nell'editor query, copia la prima tabella inserendo quanto segue query. Sostituisci
PROJECT_ID
con i del tuo progetto identificativo.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
Fai clic su
Esegui. Questo passaggio crea la prima tabella, chiamatanyc_green_trips_2021
.Nel riquadro Risultati delle query, fai clic su Vai alla tabella. Questo passaggio mostra i contenuti della prima tabella.
Nell'editor query, copia la seconda tabella sostituendo quella precedente con la seguente query. Sostituisci
PROJECT_ID
con del progetto identificativo.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
Fai clic su
Esegui. Questo passaggio crea la seconda tabella, chiamatanyc_green_trips_2022
.Nel riquadro Risultati delle query, fai clic su Vai alla tabella. Questo passaggio mostra i contenuti della seconda tabella.
Aggrega i dati in una nuova tabella
Nell'editor query, inserisci la seguente query. Sostituisci
PROJECT_ID
con del tuo progetto identificativo.CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
Fai clic su
Esegui. Questo passaggio crea una tabella combinata denominatatotal_green_trips_22_21
.Nel riquadro Risultati delle query, fai clic su Vai alla tabella. Questo passaggio mostra la tabella combinata.
Visualizza il grafico di derivazione in Dataplex
Apri la pagina di ricerca di Dataplex.
Per Scegli la piattaforma di ricerca, seleziona Data Catalog come modalità di ricerca.
Nella casella Cerca, inserisci
total_green_trips_22_21
e fai clic su Cerca.Nell'elenco dei risultati, fai clic su
total_green_trips_22_21
. Questo passaggio mostra scheda Dettagli della tabella BigQuery.Fai clic sulla scheda Derivazione.
Nel grafico di derivazione, ogni nodo rettangolare rappresenta una tabella, una tabella originale, copiata o combinata. Puoi:
Mostrare o nascondere l'origine di una tabella facendo clic su + (Espandi) o - (Comprimi).
Mostra le informazioni della tabella, facendo clic su un nodo. Questo passaggio mostra un nodo Dettagli.
Mostra le informazioni sul processo facendo clic su . Questo passaggio mostra un riquadro Dettagli del processo che mostra il job che ha trasformato una tabella di origine in una tabella di destinazione.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi per le risorse utilizzate in questa pagina, segui questi passaggi.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione creato per il tutorial.
Per eliminare il progetto:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Eliminazione del set di dati
Vai alla pagina BigQuery.
Nel riquadro Explorer, cerca il set di dati
data_lineage_demo
che è stato creato.Fai clic con il tasto destro del mouse sul set di dati e seleziona Elimina.
Conferma l'azione di eliminazione.
Passaggi successivi
- Scopri di più su Dataplex e la derivazione dei dati.
- Scopri come eseguire BigQuery query.
- Scopri come utilizzare la derivazione dei dati e visualizza derivazione dei dati grafici.
- Scopri di più sui prezzi di Dataplex e fatturazione.