Cerca e visualizza gli asset di dati con Data Catalog

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.
Questo documento spiega come utilizzare Data Catalog per eseguire una ricerca di asset di dati, ad esempio:

  • Set di dati, tabelle, viste e modelli BigQuery.
  • Stream di dati Pub/Sub.
  • Modelli di tag, gruppi di voci e voci personalizzate di Data Catalog.
  • Lake, zone, tabelle e set di dati di Dataplex.
  • Asset in silos di dati aziendali collegati a Data Catalog.
  • (Anteprima pubblica): servizi, database e tabelle Dataproc Metastore.
  • (Anteprima pubblica): set di dati collegati ad Analytics Hub.

Ambito di ricerca

Potresti avere risultati di ricerca diversi in base alle tue autorizzazioni. I risultati di ricerca di Data Catalog hanno come ambito il tuo ruolo.

Puoi esaminare i diversi tipi di ruoli e autorizzazioni IAM disponibili per Data Catalog.

Ad esempio, se hai accesso in lettura ai metadati BigQuery, un oggetto viene visualizzato nei risultati di ricerca di Data Catalog. Il seguente elenco descrive le autorizzazioni minime richieste:

  • Per cercare una tabella, devi disporre dell'autorizzazione bigquery.tables.get per tale tabella.

  • Per cercare un set di dati, devi avere l'autorizzazione bigquery.tables.get per tale set di dati.

  • Per cercare i metadati per un set di dati o una tabella, devi avere il ruolo roles/bigquery.metadataViewer.

Se hai accesso a una tabella BigQuery ma non al set di dati che la contiene, la tabella continuerà a essere visualizzata come previsto nella ricerca di Data Catalog. La stessa logica di accesso si applica a tutti i sistemi attualmente supportati, come Pub/Sub e Data Catalog stesso.

Le query di ricerca di Data Catalog non garantiscono il richiamo completo. I risultati che corrispondono alla tua query potrebbero non essere restituiti, anche nelle pagine dei risultati successive. Inoltre, i risultati restituiti (e non restituiti) possono variare se ricorri alle query di ricerca ripetute. Se riscontri problemi di richiamo e non devi recuperare i risultati in un ordine specifico, valuta la possibilità di impostare il parametro orderBy su default quando chiami il metodo catalog.search.

Tabelle con blocco della data

Data Catalog aggrega le tabelle con suddivisione in date in un'unica voce logica. Questa voce ha lo stesso schema del shard della tabella con la data più recente e contiene informazioni aggregate sul numero totale di dischi rigidi. La voce deriva il livello di accesso dal set di dati a cui appartiene. La ricerca in Data Catalog mostra queste voci logiche solo se l'utente ha accesso al set di dati che le contiene. Le singole tabelle suddivise in date non saranno visibili nella ricerca di Data Catalog, anche se sono presenti in Data Catalog e possono essere codificate.

Come cercare asset di dati

console

console

  1. Per avviare una query di ricerca Dataplex nella console, vai alla pagina ** Ricerca Dataplex**.

    Vai alla ricerca di Dataplex

  2. Nella casella di ricerca, inserisci la query o utilizza il riquadro Filtri per perfezionare i parametri di ricerca.

Filtri

I filtri consentono di restringere i risultati di ricerca. Tutti i filtri sono raggruppati in sezioni:

  • Sistemi come BigQuery, Pub/Sub, Dataplex, Dataproc Metastore, sistemi personalizzati e Data Catalog.

  • Tipi di dati, come stream di dati, set di dati, lake, zone, set di file, modelli, tabelle, viste, servizi, database e tipi personalizzati.

  • In Progetti sono elencati tutti i progetti disponibili.

  • In Modelli di tag sono elencati tutti i modelli di tag disponibili.

  • I set di dati provengono da BigQuery.

La sezione Modelli di tag mostra i modelli di tag. Puoi utilizzare i filtri per cercare modelli di tag pertinenti. Un modello selezionato filtra gli asset di dati con tag che utilizzano il modello scelto. Se tali voci non sono presenti, tutti i risultati di ricerca vengono esclusi anche se la query di ricerca originale può corrispondere ad alcune voci.

Tutti gli insiemi di filtri tranne modelli di tag vengono aggiornati a seconda della modifica della query di ricerca. I filtri vengono completati utilizzando un campione di risultati di ricerca correnti. Pertanto, l'intero insieme di risultati di ricerca potrebbe includere voci che corrispondono alla query corrente, ma i filtri che corrispondono a tali voci potrebbero non essere mostrati nel riquadro Filtri.

Puoi aggiungere manualmente i seguenti filtri:

  • In Progetti, un filtro per progetto facendo clic sul pulsante AGGIUNGI PROGETTO, cercando un progetto specifico e selezionandolo e facendo clic su APRI.
  • In Modelli di tag, un filtro modello di tag facendo clic sul menu a discesa Aggiungi altri modelli di tag, cercando un modello specifico, selezionandolo e facendo clic su OK.

Inoltre puoi:

  • Seleziona Includi set di dati pubblici per cercare asset di dati disponibili pubblicamente in Google Cloud oltre agli asset disponibili per te.
  • Torna all'esperienza di ricerca precedente facendo clic sul pulsante corrispondente nell'angolo in alto a destra. La vecchia esperienza offre un filtro più semplice.

Esempio di ricerca

Ad esempio, cerchiamo la tabella trips che hai impostato in Configura modelli di tag, tag, panoramiche e gestori dei dati:

  1. Inserisci trips nella casella di ricerca e fai clic su Cerca.
  2. Seleziona BigQuery dalla sezione Sistemi per escludere gli asset di dati con lo stesso nome che appartengono ad altri sistemi.
  3. Seleziona l'ID progetto nella sezione Progetti per escludere gli asset di dati di altri progetti. Se il tuo progetto non è visualizzato nella sezione, fai clic su AGGIUNGI PROGETTO e selezionalo nella finestra di dialogo.
  4. Seleziona Modello tag demo dalla sezione Modelli di tag per verificare se un tag che utilizza questo modello è allegato alla tabella "trips". Se questo modello non viene mostrato nella sezione, fai clic sul menu a discesa Aggiungi altri tag, individualo e selezionalo, quindi fai clic su OK.

Con tutti i filtri selezionati, i risultati di ricerca contengono solo una voce: la tabella "trips" di BigQuery nel tuo progetto a cui è associato un tag che utilizza "modello tag demo".

Puoi anche procedere nel seguente modo:

  1. Filtra la ricerca aggiungendo un elemento keyword:value ai tuoi termini di ricerca nella casella di ricerca:

    Parola chiaveDescrizione
    name: Abbina nome asset dati
    column: Corrisponde al nome della colonna o al nome della colonna nidificata
    description: Descrizione della tabella delle corrispondenze

  2. Esegui una ricerca dei tag aggiungendo uno dei seguenti prefissi di parole chiave dei tag ai termini di ricerca nella casella di ricerca:

    TagDescrizione
    tag:project-name.tag_template_name Nome tag di corrispondenza
    tag:project-name.tag_template_name.key Abbina una chiave tag
    tag:project-name.tag_template_name.key:value Coppia tag key:string value

Suggerimenti per le espressioni di ricerca

  • Racchiudi l'espressione di ricerca tra virgolette ("search terms") se contiene spazi.

  • Puoi precedere una parola chiave con "NOT" (sono necessarie tutte le lettere maiuscole) corrispondente alla negazione logica del filtro keyword:term. Puoi anche utilizzare gli operatori booleani "AND" e "OR" (all-CAPs necessari) per combinare le espressioni di ricerca.

    Ad esempio:NOT column:term elenca tutte le colonne tranne quelle che corrispondono al termine specificato. Per un elenco di parole chiave e altri termini che puoi utilizzare in un'espressione di ricerca Data Catalog, vedi Sintassi di ricerca di Data Catalog.

Java

Prima di provare questo esempio, segui le istruzioni di configurazione di Java nella guida rapida di Data Catalog utilizzando le librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Java di Data Catalog.

import com.google.cloud.datacatalog.v1.DataCatalogClient;
import com.google.cloud.datacatalog.v1.DataCatalogClient.SearchCatalogPagedResponse;
import com.google.cloud.datacatalog.v1.SearchCatalogRequest;
import com.google.cloud.datacatalog.v1.SearchCatalogRequest.Scope;
import com.google.cloud.datacatalog.v1.SearchCatalogResult;
import java.io.IOException;

// Sample to search catalog
public class SearchAssets {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "my-project-id";
    String query = "type=dataset";
    searchCatalog(projectId, query);
  }

  public static void searchCatalog(String projectId, String query) throws IOException {
    // Create a scope object setting search boundaries to the given organization.
    // Scope scope = Scope.newBuilder().addIncludeOrgIds(orgId).build();

    // Alternatively, search using project scopes.
    Scope scope = Scope.newBuilder().addIncludeProjectIds(projectId).build();

    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests. After completing all of your requests, call
    // the "close" method on the client to safely clean up any remaining background resources.
    try (DataCatalogClient dataCatalogClient = DataCatalogClient.create()) {
      // Search the catalog.
      SearchCatalogRequest searchCatalogRequest =
          SearchCatalogRequest.newBuilder().setScope(scope).setQuery(query).build();
      SearchCatalogPagedResponse response = dataCatalogClient.searchCatalog(searchCatalogRequest);

      System.out.println("Search results:");
      for (SearchCatalogResult result : response.iterateAll()) {
        System.out.println(result);
      }
    }
  }
}

Node.js

Prima di provare questo esempio, segui le istruzioni per la configurazione di Node.js nella guida rapida di Data Catalog utilizzando le librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Data Catalog Node.js.

// Import the Google Cloud client library.
const {DataCatalogClient} = require('@google-cloud/datacatalog').v1;
const datacatalog = new DataCatalogClient();

async function searchAssets() {
  // Search data assets.

  /**
   * TODO(developer): Uncomment the following lines before running the sample.
   */
  // const projectId = 'my_project'; // Google Cloud Platform project

  // Set custom query.
  const query = 'type=dataset';

  // Create request.
  const scope = {
    includeProjectIds: [projectId],
    // Alternatively, search using Google Cloud Organization scopes.
    // includeOrgIds: [organizationId],
  };

  const request = {
    scope: scope,
    query: query,
  };

  const [result] = await datacatalog.searchCatalog(request);

  console.log(`Found ${result.length} datasets in project ${projectId}.`);
  console.log('Datasets:');
  result.forEach(dataset => {
    console.log(dataset.relativeResourceName);
  });
}
searchAssets();

Python

Prima di provare questo esempio, segui le istruzioni di configurazione di Python nella guida rapida di Data Catalog utilizzando le librerie client. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Python di Data Catalog.

from google.cloud import datacatalog_v1

datacatalog = datacatalog_v1.DataCatalogClient()

# TODO: Set these values before running the sample.
project_id = "project_id"

# Set custom query.
search_string = "type=dataset"
scope = datacatalog_v1.types.SearchCatalogRequest.Scope()
scope.include_project_ids.append(project_id)

# Alternatively, search using organization scopes.
# scope.include_org_ids.append("my_organization_id")

search_results = datacatalog.search_catalog(scope=scope, query=search_string)

print("Results in project:")
for result in search_results:
    print(result)

REST &CMD LINE

REST &CMD LINE

Se non hai accesso alle librerie client di Cloud per il tuo linguaggio o vuoi testare l'API utilizzando le richieste REST, consulta i seguenti esempi e consulta la documentazione dell'API REST di Data Catalog.

1. Cerca nel catalogo.

Prima di utilizzare uno qualsiasi dei dati della richiesta, effettua le seguenti sostituzioni:

Metodo HTTP e URL:

POST https://datacatalog.googleapis.com/v1/catalog:search

Corpo JSON richiesta:

{
  "query":"trips",
  "scope":{
    "includeOrgIds":[
      "organization-id"
    ]
  }
}

Per inviare la richiesta, espandi una delle seguenti opzioni:

Dovresti ricevere una risposta JSON simile alla seguente:

{
  "results":[
    {
      "searchResultType":"ENTRY",
      "searchResultSubtype":"entry.table",
"relativeResourceName":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry1-id",
      "linkedResource":"//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/taxi_trips"
    },
    {
      "searchResultType":"ENTRY",
      "searchResultSubtype":"entry.table",
      "relativeResourceName":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry2-id",
      "linkedResource":"//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/tlc_yellow_trips_2018"
    }
  ]
}

Visualizza dettagli tabella

In Cloud Console, puoi utilizzare Data Catalog per visualizzare i dettagli della tabella.

  1. Vai alla pagina di ricerca di Dataplex.

    Vai a Data Catalog

  2. Nella casella di ricerca, inserisci il nome di un set di dati che contiene una tabella.

    Ad esempio, se hai completato la Guida rapida, puoi cercare demo-dataset e selezionare la tabella trips.

  3. Fai clic sulla tabella.

    Si apre la pagina Dettagli tabella BigQuery.

I dettagli della tabella includono le seguenti sezioni:

  • Dettagli della tabella BigQuery. Include informazioni quali il momento della creazione, l'ora dell'ultima modifica, la scadenza, gli URL delle risorse, le etichette e così via.

  • Tag. Elenca i tag applicati.Puoi modificare i tag da questa pagina e visualizzare il modello di tag. Fai clic sull'icona Azioni.

  • Tag schema e colonna. Elenca lo schema applicato e i rispettivi valori.

Aggiungi a Speciali le tue voci preferite e cercale

Se sfogli spesso gli stessi asset di dati, puoi includerli in un elenco personalizzato contrassegnandoli come Speciali. Per eseguire questa operazione nell'interfaccia utente di Dataplex:

  1. Vai alla pagina di ricerca di Dataplex e trova l'asset.

    Vai a Data Catalog

  2. Aggiungi una voce a Speciali in uno dei due seguenti modi:

    • Fai clic sull'icona accanto alla voce nei risultati di ricerca.
    • Fai clic sul nome della voce per aprire la relativa pagina dei dettagli, quindi fai clic sul pulsante STELLA nella barra delle azioni in alto.

Puoi aggiungere a Speciali fino a 200 voci.

Le voci aggiunte a Speciali vengono visualizzate nell'elenco Voci speciali nella pagina di ricerca prima di inserire una query di ricerca nella barra di ricerca. Questo elenco è visibile solo a te.

Per cercare solo le voci aggiunte a Speciali, seleziona l'opzione Ambito > Speciali nel riquadro Filtri.

Puoi anche utilizzare i metodi corrispondenti dell'API Data Catalog per aggiungere e rimuovere le voci da Speciali. Quando cerchi le risorse, utilizza il parametro starredOnly nell'oggetto scope. Vedi catalog.search.