Collega i tag a una tabella BigQuery utilizzando Data Catalog
Questa guida rapida ti aiuta a completare le attività seguenti:
Creare un set di dati e una tabella BigQuery.
Crea un modello di tag con uno schema che definisca cinque campi tag di tipi distinti.
string
,double
,boolean
,enumerated
erichtext
.Cerca la voce di Data Catalog per la tua tabella.
Nella console Google Cloud, crea metadati aziendali per la voce che includano una panoramica, gestore dei dati e un tag.
Data Catalog ti consente di cercare e taggare voci come le tabelle BigQuery con metadati. Alcuni esempi di metadati che puoi utilizzare per il tagging includono tag pubblici e privati, gestori di dati e panoramica RTF.
Prima di iniziare
- Configurare il progetto.
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Abilita le API Data Catalog and BigQuery.
- Installa Google Cloud CLI.
-
Per initialize gcloud CLI, esegui questo comando:
gcloud init
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Abilita le API Data Catalog and BigQuery.
- Installa Google Cloud CLI.
-
Per initialize gcloud CLI, esegui questo comando:
gcloud init
Aggiungi una voce di dati pubblici al tuo progetto
Le voci di Data Catalog includono risorse di dati come un set di dati BigQuery o un argomento Pub/Sub.
Aggiungi un set di dati pubblico al progetto.
Nella console Google Cloud, vai alla pagina BigQuery.
Nella sezione Explorer, fai clic su + AGGIUNGI DATI e seleziona Set di dati pubblici dall'elenco.
Nel riquadro Marketplace, cerca
New York taxi trips
e fai clic sul risultato di ricerca pertinente.Fai clic su Visualizza set di dati.
crea un set di dati e una tabella
Crea un set di dati.
Nella console Google Cloud, apri la pagina BigQuery.
Nel riquadro Explorer, seleziona il progetto in cui vuoi creare il set di dati.
Fai clic sull'icona
Azioni e poi su Crea set di dati.Nella pagina Crea set di dati, inserisci i seguenti dettagli:
- In ID set di dati, inserisci
demo_dataset
. - Per Località dei dati, seleziona
us (multiple regions in United States)
. - Abilita la scadenza della tabella e specifica il numero di giorni.
- Per Crittografia, lascia selezionata l'opzione Chiave di crittografia gestita da Google.
Fai clic su Crea set di dati.
- In ID set di dati, inserisci
Copia una tabella accessibile pubblicamente in
demo_dataset
.Nella console Google Cloud, apri la pagina BigQuery.
Nel riquadro Explorer, cerca le tabelle
tlc_yellow_trips
(se necessario, fai clic su Amplia la ricerca a tutti i progetti) e selezionane una, ad esempiotlc_yellow_trips_2017
. quindi fai clic su Copia.Nel riquadro Copia tabella, inserisci le seguenti informazioni:
- Seleziona il tuo progetto nell'elenco a discesa Nome progetto.
- Nell'elenco a discesa Nome set di dati, seleziona
demo_dataset
. - In Nome tabella, inserisci
trips
e poi fai clic su Copia.
Nel riquadro Explorer, verifica che la tabella
trips
sia elencata indemo_dataset
.
Aggiungi i tag di Data Catalog alla tabella nella sezione successiva.
Crea un modello di tag pubblico e associa un tag per la voce
Devi essere il proprietario del set di dati per collegare un tag a una tabella nel set di dati. Per ulteriori informazioni sui tag pubblici e privati, consulta la sezione Tag pubblici e privati.
In un modello di tag, i campi dei tag sono facoltativi. Non è necessario fornire un valore per un campo quando si associa un tag a una voce di Data Catalog. Tuttavia, se un modello definisce un campo come obbligatorio, devi fornire un valore per il campo. Se il valore non viene fornito, viene generato un errore.
Per definire i nomi dei campi, puoi utilizzare lettere minuscole e trattini bassi. I campi del modello di tag creati in questo esempio sono solo campi demo e non vengono aggiornati automaticamente o sincronizzati con BigQuery.
Console
Vai alla pagina Dataplex > Modelli di tag.
Fai clic su Crea modello di tag e inserisci i seguenti dettagli:
- Inserisci il Nome modello come
Demo Tag Template
. - Conserva la località predefinita.
- Mantieni la visibilità del modello di tag come Pubblico.
Fai clic su Aggiungi campo per aggiungere cinque campi. Utilizza la seguente tabella e lascia vuoto il campo Descrizione campo.
Nome visualizzato del campo ID campo Campo obbligatorio Tipo Origine dell'asset di dati origine Sì Stringa Righe nell'asset num_rows No Doppio Include PII has_pii No Booleano Tipo PII pii_type No Enumerato Aggiungi i valori
EMAIL_ADDRESS
,US_SOCIAL_SECURITY_NUMBER
eNONE
.Contesto context No RTF
- Inserisci il Nome modello come
Fai clic su Crea.
La pagina Dettagli modello elenca tutte le informazioni sul modello di tag.
Per associare un tag a
demo_dataset
, vai alla pagina di ricerca di Dataplex.Nella casella di ricerca, inserisci
demo_dataset
. Nel risultato di ricerca vedi il set di datidemo_dataset
e la tabellatrips
.Fai clic sulla tabella
trips
. Si apre la pagina Dettagli tabella BigQuery.Fai clic su Associa tag.
Nel riquadro Allega tag, inserisci i seguenti dettagli:
- Seleziona il target come
trips
. - Seleziona il modello di tag come
Demo Tag Template
. - Per i valori tag, inserisci i seguenti dettagli:
- Origine dell'asset di dati:
Copied from tlc_yellow_trips_2017
- Numero di righe nell'asset di dati:
113496874
- Include PII:
FALSE
- Tipo di PII:
NONE
- Origine dell'asset di dati:
Fai clic su Salva.
I campi tag sono ora elencati nella sezione Tag dei dettagli della tabella BigQuery.
- Seleziona il target come
gcloud
Esegui il comando gcloud data-catalog tag-templates create mostrato di seguito per creare un modello di tag con i seguenti cinque campi di tag:
-
display_name:
Origine dell'asset di datiid:
originerequired:
TRUEtype:
Stringa -
display_name:
Numero di righe nell'asset di datiid:
num_righerequired:
FALSEtype:
Doppio -
display_name:
contiene PIIid:
has_piirequired:
FALSEtype:
Booleano -
display_name:
Tipo di PIIid:
pii_typerequired:
FALSEtype:
Enumeratovalues:
- EMAIL_ADDRESS
- US_SOCIAL_SECURITY_NUMBER
- NESSUNO
# ------------------------------- # Create a Tag Template. # ------------------------------- gcloud data-catalog tag-templates create demo_template \ --location=us-central1 \ --display-name="Demo Tag Template" \ --field=id=source,display-name="Source of data asset",type=string,required=TRUE \ --field=id=num_rows,display-name="Number of rows in the data asset",type=double \ --field=id=has_pii,display-name="Has PII",type=bool \ --field=id=pii_type,display-name="PII type",type='enum(EMAIL_ADDRESS|US_SOCIAL_SECURITY_NUMBER|NONE)' # ------------------------------- # Lookup the Data Catalog entry for the table. # ------------------------------- ENTRY_NAME=$(gcloud data-catalog entries lookup '//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET/tables/TABLE' --format="value(name)") # ------------------------------- # Attach a Tag to the table. # ------------------------------- # Create the Tag file. cat > tag_file.json << EOF { "source": "BigQuery", "num_rows": 1000, "has_pii": true, "pii_type": "EMAIL_ADDRESS" } EOF gcloud data-catalog tags create --entry=${ENTRY_NAME} \ --tag-template=demo_template --tag-template-location=us-central1 --tag-file=tag_file.json
Go
Prima di provare questo esempio, segui le istruzioni di configurazione di Go disponibili nella guida rapida di Data Catalog sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Go di Data Catalog.
Per eseguire l'autenticazione in Data Catalog, configura Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Prima di provare questo esempio, segui le istruzioni di configurazione di Java disponibili nella guida rapida di Data Catalog sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Java di Data Catalog.
Per eseguire l'autenticazione in Data Catalog, configura Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni di configurazione di Node.js disponibili nella guida rapida di Data Catalog sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Node.js di Data Catalog.
Per eseguire l'autenticazione in Data Catalog, configura Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Prima di provare questo esempio, segui le istruzioni di configurazione di Python disponibili nella guida rapida di Data Catalog sull'utilizzo delle librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Python di Data Catalog.
Per eseguire l'autenticazione in Data Catalog, configura Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
LINEA REST E CMD
REST
Se non hai accesso alle librerie client di Cloud per il tuo linguaggio o vuoi testare l'API utilizzando richieste REST, consulta gli esempi seguenti e la documentazione sull'API REST di Data Catalog.
1. Crea un modello di tag.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: l'ID del tuo progetto Google Cloud
Metodo HTTP e URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/tagTemplates?tagTemplateId=demo_tag_template
Corpo JSON della richiesta:
{ "displayName":"Demo Tag Template", "fields":{ "source":{ "displayName":"Source of data asset", "isRequired": "true", "type":{ "primitiveType":"STRING" } }, "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" }, { "displayName":"NONE" } ] } } } } }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "displayName":"Demo Tag Template", "fields":{ "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"NONE" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" } ] } } }, "source":{ "displayName":"Source of data asset", "isRequired":"true", "type":{ "primitiveType":"STRING" } } } }
2. Cerca in Data Catalog entry-id
la tua tabella BigQuery.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: ID progetto Google Cloud
Metodo HTTP e URL:
GET https://datacatalog.googleapis.com/v1/entries:lookup?linkedResource=//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips
Corpo JSON della richiesta:
Request body is empty.
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id", "type": "TABLE", "schema": { "columns": [ { "type": "STRING", "description": "A code indicating the TPEP provider that provided the record. 1= ", "mode": "REQUIRED", "column": "vendor_id" }, ... ] }, "sourceSystemTimestamps": { "createTime": "2019-01-25T01:45:29.959Z", "updateTime": "2019-03-19T23:20:26.540Z" }, "linkedResource": "//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips", "bigqueryTableSpec": { "tableSourceType": "BIGQUERY_TABLE" } }
3. Crea un tag dal modello e associalo alla tabella BigQuery.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: ID progetto Google Cloud
- entry-id: ID voce di Data Catalog per la tabella delle corse del set di dati demo (restituita nei risultati della ricerca nel passaggio precedente).
Metodo HTTP e URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/entryGroups/@bigquery/entries/entry-id/tags
Corpo JSON della richiesta:
{ "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "source":{ "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "doubleValue":113496874 }, "has_pii":{ "boolValue":false }, "pii_type":{ "enumValue":{ "displayName":"NONE" } } } }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id/tags/tag-id", "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "pii_type":{ "displayName":"PII type", "enumValue":{ "displayName":"NONE" } }, "has_pii":{ "displayName":"Has PII", "boolValue":false }, "source":{ "displayName":"Source of data asset", "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "displayName":"Number of rows in data asset", "doubleValue":113496874 } }, "templateDisplayName":"Demo Tag Template" }
Crea una panoramica per la voce
Nella console Google Cloud, puoi utilizzare il formato RTF per descrivere una voce del tuo progetto Data Catalog.
Per creare una panoramica per la tabella
trips
, vai alla pagina di ricerca di Dataplex.Nella casella di ricerca, inserisci
demo_dataset
.Nel risultato di ricerca vedi il set di dati
demo_dataset
e la tabellatrips
.Fai clic sulla tabella
trips
.Si apre la pagina Dettagli tabella BigQuery.
Fai clic su Aggiungi panoramica e inserisci il testo. Puoi anche includere immagini e testo RTF.
Fai clic su Salva.
Aggiungi un gestore dati per la voce
Nella console Google Cloud, puoi aggiungere uno o più gestori dati a una voce del progetto Data Catalog. È possibile contattare un gestore di dati per una voce di dati per richiedere maggiori informazioni.
Per creare una panoramica della tabella
trips
, ripeti i primi 3 passaggi della sezione precedente.Fai clic sull'icona Modifica gestore e aggiungi uno o più indirizzi email.
Puoi aggiungere un utente con un account email non Google.
Fai clic su Salva.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi:
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.
Per eliminare il progetto:
- Nella console Google Cloud, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.
Eliminazione del set di dati
Se necessario, vai alla pagina di BigQuery.
Nel riquadro Explorer, cerca il set di dati
demo_dataset
che hai creato.Fai clic sull'opzione
Azioni e poi su Elimina set di dati.Conferma l'azione di eliminazione.
Elimina il modello di tag
Vai alla pagina Catalogo dati > Modelli.
Seleziona Modello di tag demo.
Nella riga, fai clic sull'opzione
Azioni e poi su Elimina questo modello.Conferma l'azione di eliminazione.
Passaggi successivi
Scopri di più su Data Catalog nella Panoramica di Data Catalog.
Scopri di più sui metadati tecnici e sui metadati aziendali.
Per saperne di più su modelli di tag, tag pubblici e tag privati, consulta Tag e modelli di tag.
Sfoglia la Panoramica delle API e delle librerie client.