Sintassi di ricerca di Data Catalog

Questo documento descrive la sintassi delle query di ricerca di Data Catalog. Prima di leggere questo documento, è importante aver compreso i concetti di Data Catalog come voce di dati, tag e modelli di tag e altri tipi di metadati. Consulta la sezione Che cos'è Data Catalog?

Per lanciare una query di ricerca di Data Catalog nella console Google Cloud, vai alla pagina Ricerca di Data Catalog e seleziona Data Catalog come modalità di ricerca.

Vai alla Ricerca

Nella sua forma più semplice, una query di ricerca di Data Catalog comprende un singolo predicato. Un tale può corrispondere a diversi metadati:

  • Una sottostringa di un nome, un nome visualizzato o una descrizione di una risorsa di dati
  • Tipo esatto di un asset di dati
  • Una sottostringa del nome di una colonna (o del nome di una colonna nidificata) nello schema di un asset di dati
  • Una sottostringa di un ID progetto
  • Il valore di un tag pubblico, il nome di un modello di tag pubblico o un nome campo in un modello di tag pubblico associato a una voce di dati.
  • (Anteprima) Una stringa per un indirizzo email o il nome di un gestore dati
  • (Anteprima) Una stringa da una descrizione panoramica

La ricerca semplice non supporta i campi dei modelli di tag di tipo datetime.

Ad esempio, il predicato foo corrisponde alle seguenti entità:

  • Asset di dati con il nome foo.bar
  • Asset di dati con il nome visualizzato Foo Bar
  • Asset di dati con descrizione This is the foo script.
  • Asset di dati del tipo esatto foo
  • Colonna foo_bar nello schema di un asset di dati
  • Colonna foo_bar nidificata nello schema di un asset di dati
  • Progetto prod-foo-bar
  • Modello di tag pubblico denominato foo, voci di dati taggate con il modello di tag foo, nome visualizzato del modello di tag foo, nome del campo del modello di tag foo e valore del campo del tag foo in una stringa, un'enumerazione o un testo avanzato.
  • (Anteprima) Asset dati con un responsabile dei dati denominato foo.
  • (Anteprima) Asset di dati con una panoramica contenente la parola foo.

Per scoprire di più sui ruoli e sulle autorizzazioni per visualizzare i tag pubblici e privati, consulta Ruoli per visualizzare i tag pubblici e privati.

Predicati qualificati

Puoi qualificare un predicato anteponendogli una chiave che limita la corrispondenza a un determinato elemento di metadati.

Un segno di uguale (=) limita la ricerca a una corrispondenza esatta.

Un due punti (:) dopo la chiave associa il predicato a una sottostringa o a un token all'interno del valore nei risultati di ricerca.

La tokenizzazione suddivide il flusso di testo in una serie di token, con ciascun token di solito corrisponde a una singola parola.

Ad esempio:

  • name:foo seleziona le entità con nomi che contengono la sottostringa foo: foo1 e barfoo.
  • description:foo seleziona le entità con il token foo nella descrizione: bar and foo.
  • location=foo corrisponde a tutti gli asset dati in una località specificata con foo come nome della località.

Data Catalog supporta i seguenti qualificatori:

Qualificatore Descrizione
name:x Corrisponde a x come sottostringa dell'ID della risorsa di dati.
displayname:x Corrispondenza di x come sottostringa del nome visualizzato della risorsa di dati.
column:x Trova x come una sottostringa del nome della colonna (o del nome della colonna nidificata) nello schema dell'asset di dati.
Puoi cercare una colonna nidificata in base al relativo percorso utilizzando l'operatore logico AND.
Ad esempio, column:(foo bar) corrisponde a una colonna nidificata con il percorso foo.bar.
description:x Corrisponde a x come token nella descrizione dell'asset di dati.
label:bar Corrisponde agli asset di dati BigQuery che hanno un'etichetta (con un valore) e la chiave di etichetta ha bar come sottostringa.
label=bar Corrisponde agli asset di dati BigQuery che hanno un'etichetta (con un valore) e la chiave dell'etichetta è uguale a bar come stringa.
label:bar:x Corrisponde a x come sottostringa nel valore di un'etichetta con chiave bar collegata a un asset di dati BigQuery.
label=foo:bar Corrisponde agli asset di dati BigQuery dove la chiave è uguale a foo e la coppia chiave-valore è uguale a bar.
label.foo=bar Corrisponde agli asset di dati BigQuery in cui la chiave è uguale a foo e il valore della chiave è uguale a bar.
label.foo Corrisponde agli asset di dati BigQuery che hanno un'etichetta la cui chiave equivale a foo come stringa.
type=<type> Corrisponde alle risorse di dati di un tipo o sottotipo di oggetto specifico. I sottotipi possono essere aggiunti con il formato <type>.<sub-type>.
I tipi e i sottotipi includono:
  • type=table corrisponde a tutte le tabelle, le viste e le viste materializzate.
  • type=dataset corrisponde a tutti i set di dati.
  • type=table.view o type=view corrisponde a tutte le visualizzazioni, ma non a quelle con dati aggregati.
  • type=materialized_view corrisponde a tutte le viste materializzate.
  • type=lake corrisponde a tutti i lake.
  • type=zone corrisponde a tutte le zone.
  • type=tag_template corrisponde a tutti i modelli di tag.
  • type=entry_group corrisponde a tutti i gruppi di voci.
  • type=data_stream corrisponde a tutti gli argomenti Pub/Sub.
  • (Anteprima) type=dataset.linked corrisponde a tutti i set di dati collegati di Analytics Hub.
projectid:bar Corrisponde agli asset di dati all'interno dei progetti Cloud che corrispondono a bar come sottostringa nell'ID.
parent:x Corrisponde a x come sottostringa del percorso gerarchico di una risorsa dati BigQuery. Il percorso ha il formato <project_id>.<dataset_name>.
Ad esempio, parent:foo.bar corrisponde a tutte le tabelle e le visualizzazioni di un set di dati con il percorso project-foo.bar-dataset.
orgid=number Abbina gli asset di dati all'interno di un'organizzazione Cloud con il valore ID esatto di number.
system=<system> Corrisponde a tutti gli asset di dati di un sistema specificato.
I sistemi includono:
  • system=bigquery corrisponde a tutti gli asset di dati di BigQuery.
  • system=cloud_bigtable corrisponde a tutti gli asset di dati di Bigtable.
  • system=cloud_pubsub corrisponde a tutti gli asset di dati di Pub/Sub.
  • system=cloud_spanner corrisponde a tutti gli asset di dati di Spanner.
  • system=dataproc_metastore corrisponde a tutti gli asset dati di Dataproc Metastore.
  • system=data_catalog corrisponde a tutti gli asset di dati creati in Data Catalog.
  • system=dataplex corrisponde a tutti gli asset di dati creati in Dataplex.
location=<location> Corrisponde a tutti gli asset di dati in una posizione specificata con un nome esatto. Ad esempio, location=us-central1 corrisponde a tutti gli asset ospitati in Iowa.
Per un elenco completo delle località supportate, consulta Regioni del Catalogo di dati.
cluster_location=<location> Corrisponde a tutti gli asset di dati Bigtable in una località specificata con un nome esatto.
Ad esempio, cluster_location=us-central1 corrisponde a tutti gli asset ospitati in Iowa.
Per un elenco completo delle località supportate, consulta Regioni di Bigtable.
tag:x Corrisponde agli asset di dati in cui x corrisponde a qualsiasi sottostringa in <tag_template_project_id>.<tag_template_id>.<tag_field_id> di un tag pubblico o privato.
Esempi:
  • tag:data_owner corrisponde alle risorse di dati con il tag data_owner.
  • tag:data_gov_template corrisponde agli asset di dati taggati con il modello di tag data_gov_template.
  • tag:mycloudproject.data_gov_template corrisponde agli asset di dati taggati con il modello data_gov_template nel progetto mycloudproject.
tag:key<operator>val Innanzitutto, abbina key a qualsiasi sottostringa dell'ID campo tag, dell'ID modello di tag o dell'ID progetto Google Cloud di un modello di tag. Successivamente, associa val al valore del tag key a seconda del tipo di campo tag.
Gli insiemi di <operator> dipendenti dal tipo consentiti per i valori del tag sono:
  • string/richtext: ":"
    Nota: i due punti in questa stringa di ricerca indicano una corrispondenza esatta del token, non una sottostringa.
  • boolean ed enum: "="
  • double: "=", "<", ">", "<=", ">="
  • timestamp: ":", "=", "<", ">", "<=", ">="
Esempi:
  • string: tag:data_owner:@mail.com corrisponde agli asset di dati che hanno valori @mail.com.
  • boolean: tag:data_gov_template.hasPII=true corrisponde ai tag booleani hasPII in data_gov_template che sono true.
  • enum: tag:certification_level_1=HIGHEST.
  • double: tag:datascore=9 corrisponde agli asset dati con tag doppi datascore con valore 9.
  • timestamp: tag:expiredDate:2019-01-01 corrisponde agli asset di dati con un tag expiredDate di 2019-01-01.
  • timestamp: tag:expiredDate<2019-02 corrisponde agli asset di dati provvisti di un tag expiredDate prima del giorno 2019-02-01T00:00:00.
createtime Trova gli asset di dati creati prima, durante o dopo una determinata data o ora.
Esempi:
  • createtime:2019-01-01 corrisponde agli asset di dati creati il giorno 2019-01-01.
  • createtime<2019-02 corrisponde agli asset di dati creati prima del giorno 2019-02-01T00:00:00.
  • createtime>2019-02 corrisponde agli asset di dati creati dopo il giorno 2019-02-01T00:00:00.
updatetime Trova gli asset di dati che sono stati aggiornati entro, prima o dopo una determinata data o ora.
Esempi:
  • updatetime:2019-01-01 corrisponde agli asset dati aggiornati il giorno 2019-01-01.
  • updatetime<2019-02 corrisponde agli asset di dati aggiornati prima del giorno 2019-02-01T00:00:00.
  • updatetime>2019-02 corrisponde alle risorse di dati aggiornate dopo il giorno 2019-02-01T00:00:00.
policytag:x Corrispondenza di x come sottostringa del nome visualizzato del tag di criteri. Trova tutti gli asset utilizzando il tag di criteri corrispondente o i relativi discendenti.
policytagid=x Corrisponde a x come ID tassonomia o tag criterio. Trova tutte le risorse che utilizzano il tag delle norme di corrispondenza o i relativi discendenti.
term:x Corrisponde agli asset dati collegati a un termine del glossario aziendale in cui una sottostringa di nome, descrizione o responsabile dei dati corrisponde a x.
fully_qualified_name:x Corrisponde a x come sottostringa di fully_qualified_name.
fully_qualified_name=x Corrisponde a x come fully_qualified_name.

Operatori logici

Una query può essere composta da diversi predicati con operatori logici. Se non specifichi un operatore, AND è implicito. Ad esempio, foo bar restituisce entità che corrispondono a entrambi il predicato foo e il predicato bar.

Sono supportati gli operatori logici AND e gli operatori logici, ad esempio foo OR bar.

Puoi negare un predicato con un prefisso - o NOT. Ad esempio, -name:foo restituisce tutte le entità con nomi che non corrispondono al predicato foo.

Sintassi abbreviata

È disponibile anche una sintassi di ricerca abbreviata, che utilizza | per gli operatori OR e , per gli operatori AND.

Ad esempio, per cercare voci all'interno di uno dei numerosi progetti utilizzando OR puoi utilizzare:

projectid:(pid1|pid2|pid3|pid4)

Invece di:

projectid:pid1 OR projectid:pid2 OR projectid:pid3 OR projectid:pid4

Per cercare voci con nomi di colonne corrispondenti:

  • E: column:(name1, name2, name3)
  • OPPURE: column:(name1|name2|name3)

Questa sintassi abbreviata funziona per i predicati qualificati elencati in precedenza, ad eccezione di tag, term, policytag, policytagid e label.