Collega i tag a una tabella BigQuery utilizzando Data Catalog
Questa guida rapida ti aiuta a completare le attività seguenti:
Creare un set di dati e una tabella BigQuery.
Crea un modello di tag con uno schema che definisce cinque campi tag di tipi distinti. Si tratta di
string
,double
,boolean
,enumerated
erichtext
.Cerca la voce Data Catalog per la tua tabella.
Nella console Google Cloud, crea metadati aziendali per la voce che includano una panoramica, un gestore dati e un tag.
Data Catalog ti consente di cercare e taggare voci come tabelle BigQuery con metadati. Alcuni esempi di metadati che puoi utilizzare per il tagging includono tag pubblici e privati, gestori dei dati e panoramica RTF.
Prima di iniziare
- Configurare il progetto.
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Abilita le API Data Catalog and BigQuery.
- Installa Google Cloud CLI.
-
Per initialize gcloud CLI, esegui questo comando:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Abilita le API Data Catalog and BigQuery.
- Installa Google Cloud CLI.
-
Per initialize gcloud CLI, esegui questo comando:
gcloud init
Aggiungi una voce di dati pubblici al progetto
Le voci di Data Catalog includono risorse di dati come un set di dati BigQuery o un argomento Pub/Sub.
Aggiungi un set di dati pubblico al progetto.
Nella console Google Cloud, vai alla pagina BigQuery.
Nella sezione Explorer, fai clic su + AGGIUNGI DATI e seleziona Set di dati pubblici dall'elenco.
Nel riquadro Marketplace, cerca
New York taxi trips
e fai clic sul risultato di ricerca pertinente.Fai clic su Visualizza set di dati.
crea un set di dati e una tabella
Crea un set di dati.
Nella console Google Cloud, apri la pagina BigQuery.
Nel riquadro Explorer, seleziona il progetto in cui vuoi creare il set di dati.
Fai clic sull'icona
Azioni e poi su Crea set di dati.Nella pagina Crea set di dati, inserisci i seguenti dettagli:
- In ID set di dati, inserisci
demo_dataset
. - Per Località dei dati, seleziona
us (multiple regions in United States)
. - Abilita la scadenza della tabella e specifica il numero di giorni.
- In Crittografia, lascia selezionata l'opzione Chiave di crittografia gestita da Google.
Fai clic su Crea set di dati.
- In ID set di dati, inserisci
Copia una tabella accessibile pubblicamente in
demo_dataset
.Nella console Google Cloud, apri la pagina BigQuery.
Nel riquadro Explorer, cerca le tabelle
tlc_yellow_trips
(fai clic su Amplia la ricerca a tutti i progetti se necessario) e selezionane una, ad esempiotlc_yellow_trips_2017
. Quindi, fai clic su Copia.Nel riquadro Copia tabella, inserisci le seguenti informazioni:
- Nell'elenco a discesa Nome progetto, seleziona il tuo progetto.
- Nell'elenco a discesa Nome set di dati, seleziona
demo_dataset
. - Per Nome tabella, inserisci
trips
e poi fai clic su Copia.
Nel riquadro Explorer, verifica che la tabella
trips
sia elencata indemo_dataset
.
Aggiungi i tag Data Catalog alla tabella nella sezione successiva.
Crea un modello di tag pubblico e allega un tag per la voce
Devi essere il proprietario del set di dati per collegare un tag a una tabella nel set di dati. Per ulteriori informazioni sui tag pubblici e privati, consulta l'argomento Tag pubblici e privati.
In un modello di tag, i campi dei tag sono facoltativi. Non è necessario fornire un valore per un campo quando colleghi un tag a una voce di Data Catalog. Tuttavia, se un modello definisce un campo come obbligatorio, devi fornire un valore per il campo. Se il valore non viene fornito, viene generato un errore.
Puoi utilizzare lettere minuscole e trattini bassi per definire i nomi dei campi. I campi del modello di tag creati in questo esempio sono solo campi dimostrativi e non vengono aggiornati automaticamente o sincronizzati con BigQuery.
Console
Vai alla pagina Dataplex > Modelli di tag.
Fai clic su Crea modello di tag e inserisci i seguenti dettagli:
- Come Nome modello, inserisci
Demo Tag Template
. - Conserva la località predefinita.
- Mantieni la visibilità del modello di tag come Pubblico.
Fai clic su Aggiungi campo per aggiungere cinque campi. Utilizza la seguente tabella e lascia vuoto il campo Descrizione campo.
Nome visualizzato del campo ID campo Campo obbligatorio Tipo Origine dell'asset di dati source Sì String Righe nell'asset num_rows No Doppio Contiene PII has_pii No Booleano Tipo PII pii_type No Enumerato Aggiungi i valori
EMAIL_ADDRESS
,US_SOCIAL_SECURITY_NUMBER
eNONE
.Contesto context No RTF
- Come Nome modello, inserisci
Fai clic su Crea.
La pagina Dettagli modello elenca tutte le informazioni sul modello di tag.
Per collegare un tag a
demo_dataset
, vai alla pagina di ricerca di Dataplex.Per Scegli la piattaforma di ricerca, seleziona Data Catalog come modalità di ricerca.
Nella casella di ricerca, inserisci
demo_dataset
. Nel risultato di ricerca, vedrai il set di datidemo_dataset
e la tabellatrips
.Fai clic sulla tabella
trips
. Si apre la pagina Dettagli tabella BigQuery.Fai clic su Associa tag.
Nel riquadro Allega tag, inserisci i seguenti dettagli:
- Seleziona
trips
come target. - Seleziona
Demo Tag Template
come modello di tag. - Per i valori dei tag, inserisci i seguenti dettagli:
- Origine dell'asset di dati:
Copied from tlc_yellow_trips_2017
- Numero di righe nell'asset di dati:
113496874
- Contiene PII:
FALSE
- Tipo di PII:
NONE
- Origine dell'asset di dati:
Fai clic su Salva.
I campi tag sono ora elencati nella sezione Tag nei dettagli della tabella BigQuery.
- Seleziona
gcloud
Esegui il comando gcloud data-catalog tag-templates create mostrato di seguito per creare un modello di tag con i seguenti cinque campi di tag:
-
display_name:
Origine dell'asset di datiid:
originerequired:
TRUEtype:
Stringa -
display_name:
Numero di righe nell'asset di datiid:
num_rowsrequired:
FALSEtype:
Doppio -
display_name:
Contiene PIIid:
has_piirequired:
FALSEtype:
Booleano -
display_name:
Tipo di PIIid:
pii_typerequired:
FALSEtype:
Enumeratovalues:
- EMAIL_ADDRESS
- US_SOCIAL_SECURITY_NUMBER
- NESSUNO
# ------------------------------- # Create a Tag Template. # ------------------------------- gcloud data-catalog tag-templates create demo_template \ --location=us-central1 \ --display-name="Demo Tag Template" \ --field=id=source,display-name="Source of data asset",type=string,required=TRUE \ --field=id=num_rows,display-name="Number of rows in the data asset",type=double \ --field=id=has_pii,display-name="Has PII",type=bool \ --field=id=pii_type,display-name="PII type",type='enum(EMAIL_ADDRESS|US_SOCIAL_SECURITY_NUMBER|NONE)' # ------------------------------- # Lookup the Data Catalog entry for the table. # ------------------------------- ENTRY_NAME=$(gcloud data-catalog entries lookup '//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET/tables/TABLE' --format="value(name)") # ------------------------------- # Attach a Tag to the table. # ------------------------------- # Create the Tag file. cat > tag_file.json << EOF { "source": "BigQuery", "num_rows": 1000, "has_pii": true, "pii_type": "EMAIL_ADDRESS" } EOF gcloud data-catalog tags create --entry=${ENTRY_NAME} \ --tag-template=demo_template --tag-template-location=us-central1 --tag-file=tag_file.json
Go
Prima di provare questo esempio, segui le istruzioni per la configurazione di Go nella guida rapida di Data Catalog sull'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Go di Data Catalog.
Per eseguire l'autenticazione in Data Catalog, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Java
Prima di provare questo esempio, segui le istruzioni per la configurazione di Java nella guida rapida di Data Catalog sull'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Java di Data Catalog.
Per eseguire l'autenticazione in Data Catalog, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni per la configurazione di Node.js nella guida rapida di Data Catalog sull'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Node.js di Data Catalog.
Per eseguire l'autenticazione in Data Catalog, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Prima di provare questo esempio, segui le istruzioni per la configurazione di Python nella guida rapida di Data Catalog sull'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Python di Data Catalog.
Per eseguire l'autenticazione in Data Catalog, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
LINEA REST e CMD
REST
Se non hai accesso alle librerie client di Cloud per il tuo linguaggio o se vuoi testare l'API utilizzando richieste REST, consulta gli esempi riportati di seguito e fai riferimento alla documentazione sull'API REST Data Catalog.
1. Crea un modello di tag.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: l'ID del tuo progetto Google Cloud
Metodo HTTP e URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/tagTemplates?tagTemplateId=demo_tag_template
Corpo JSON della richiesta:
{ "displayName":"Demo Tag Template", "fields":{ "source":{ "displayName":"Source of data asset", "isRequired": "true", "type":{ "primitiveType":"STRING" } }, "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" }, { "displayName":"NONE" } ] } } } } }
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "displayName":"Demo Tag Template", "fields":{ "num_rows":{ "displayName":"Number of rows in data asset", "isRequired": "false", "type":{ "primitiveType":"DOUBLE" } }, "has_pii":{ "displayName":"Has PII", "isRequired": "false", "type":{ "primitiveType":"BOOL" } }, "pii_type":{ "displayName":"PII type", "isRequired": "false", "type":{ "enumType":{ "allowedValues":[ { "displayName":"EMAIL_ADDRESS" }, { "displayName":"NONE" }, { "displayName":"US_SOCIAL_SECURITY_NUMBER" } ] } } }, "source":{ "displayName":"Source of data asset", "isRequired":"true", "type":{ "primitiveType":"STRING" } } } }
2. Cerca nel Data Catalog entry-id
la tua tabella BigQuery.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: ID progetto Google Cloud
Metodo HTTP e URL:
GET https://datacatalog.googleapis.com/v1/entries:lookup?linkedResource=//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips
Corpo JSON della richiesta:
Request body is empty.
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id", "type": "TABLE", "schema": { "columns": [ { "type": "STRING", "description": "A code indicating the TPEP provider that provided the record. 1= ", "mode": "REQUIRED", "column": "vendor_id" }, ... ] }, "sourceSystemTimestamps": { "createTime": "2019-01-25T01:45:29.959Z", "updateTime": "2019-03-19T23:20:26.540Z" }, "linkedResource": "//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/trips", "bigqueryTableSpec": { "tableSourceType": "BIGQUERY_TABLE" } }
3. Creare un tag dal modello e collegarlo alla tabella BigQuery.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- project-id: ID progetto Google Cloud
- entry-id: ID voce di Data Catalog per la tabella dei viaggi del set di dati demo (restituito nei risultati di ricerca nel passaggio precedente).
Metodo HTTP e URL:
POST https://datacatalog.googleapis.com/v1/projects/project-id/locations/region/entryGroups/@bigquery/entries/entry-id/tags
Corpo JSON della richiesta:
{ "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "source":{ "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "doubleValue":113496874 }, "has_pii":{ "boolValue":false }, "pii_type":{ "enumValue":{ "displayName":"NONE" } } } }
Per inviare la richiesta, espandi una delle seguenti opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry-id/tags/tag-id", "template":"projects/project-id/locations/us-central1/tagTemplates/demo_tag_template", "fields":{ "pii_type":{ "displayName":"PII type", "enumValue":{ "displayName":"NONE" } }, "has_pii":{ "displayName":"Has PII", "boolValue":false }, "source":{ "displayName":"Source of data asset", "stringValue":"Copied from tlc_yellow_trips_2017" }, "num_rows":{ "displayName":"Number of rows in data asset", "doubleValue":113496874 } }, "templateDisplayName":"Demo Tag Template" }
Crea una panoramica per la voce
Nella console Google Cloud, puoi utilizzare il formato RTF per descrivere una voce nel tuo progetto Data Catalog.
Per creare una panoramica per la tabella
trips
, vai alla pagina di ricerca di Dataplex.Per Scegli la piattaforma di ricerca, seleziona Data Catalog come modalità di ricerca.
Nella casella di ricerca, inserisci
demo_dataset
.Nel risultato di ricerca, vedrai il set di dati
demo_dataset
e la tabellatrips
.Fai clic sulla tabella
trips
.Si apre la pagina Dettagli tabella BigQuery.
Fai clic su Aggiungi panoramica e inserisci del testo. Puoi includere anche immagini e testo in formato RTF.
Fai clic su Salva.
Aggiungi un gestore dati per la voce
Nella console Google Cloud, puoi aggiungere uno o più data steward a una voce nel tuo progetto Data Catalog. È possibile contattare un gestore dati di una voce dati per richiedere ulteriori informazioni.
Per creare una panoramica per la tabella
trips
, ripeti i primi 3 passaggi della sezione precedente.Fai clic sull'icona Modifica gestore e aggiungi uno o più indirizzi email.
Puoi aggiungere un utente con un account email non Google.
Fai clic su Salva.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è quello di eliminare il progetto che hai creato per il tutorial.
Per eliminare il progetto:
- Nella console Google Cloud, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.
Eliminazione del set di dati
Se necessario, vai alla pagina di BigQuery.
Nel riquadro di esplorazione, cerca il set di dati
demo_dataset
che hai creato.Fai clic sull'opzione
Azioni e poi su Elimina set di dati.Conferma l'azione di eliminazione.
Elimina il modello di tag
Vai alla pagina Data Catalog > Modelli.
Seleziona Demo Tag Template (Modello di tag demo).
Nella riga, fai clic sull'opzione
Azioni e poi su Elimina questo modello.Conferma l'azione di eliminazione.
Passaggi successivi
Scopri di più su Data Catalog nella panoramica di Data Catalog.
Scopri di più sui metadati tecnici e sui metadati aziendali.
Per ulteriori informazioni sui modelli di tag, sui tag pubblici e privati, consulta l'articolo Tag e modelli di tag.
Consulta la panoramica sulle API e sulle librerie client.