Lavorare con Data Catalog
Data Catalog è una funzionalità di Dataplex che si integra con a BigQuery mediante la catalogazione automatica dei metadati Risorse BigQuery come tabelle, set di dati, viste e modelli. Questo documento descrive come cercare queste risorse, visualizzare la derivazione dei dati e aggiungere utilizzando Data Catalog.
Cerca risorse BigQuery
Per utilizzare Data Catalog per cercare set di dati, tabelle e progetti aggiunti a Speciali BigQuery:
Nella console Google Cloud, vai alla pagina Ricerca in Dataplex.
Nel campo Cerca, inserisci una query, quindi fai clic su Cerca.
Per perfezionare i parametri di ricerca, utilizza il riquadro Filtri. Ad esempio: Nella sezione Sistemi, seleziona la casella di controllo BigQuery. I risultati vengono filtrate in base ai sistemi BigQuery.
Puoi eseguire ricerche di base in Data Catalog tramite nella console Google Cloud. Per saperne di più sulla ricerca nella console Google Cloud, consulta Aprire una finestra del set di dati.
Derivazione dei dati
La derivazione dei dati è un la funzionalità Dataplex consente di tenere traccia del movimento dei dati nei sistemi: da dove provengono, dove a cui viene trasmesso e quali trasformazioni vengono applicate. Puoi accedere ai funzionalità di derivazione dei dati direttamente da BigQuery.
Cause dell'abilitazione della derivazione dei dati nel progetto BigQuery Dataplex per registrare automaticamente le informazioni sulla derivazione per le tabelle create dalle seguenti operazioni:
- Job di copia.
Job di query che utilizzano le seguenti istruzioni DDL (Data Definition Language) o DML (Data Manipulation Language) in GoogleSQL:
CREATE TABLE
(inclusa l'istruzioneCREATE TABLE AS SELECT
)INSERT
UPDATE
DELETE
MERGE
Prima di iniziare
In questa sezione, abiliti l'API Data Lineage e concedi i ruoli di Identity and Access Management (IAM) che offrono agli utenti autorizzazioni necessarie per eseguire ogni attività in questo documento.
Abilita derivazione dei dati
- Nella pagina del selettore dei progetti della console Google Cloud, seleziona il progetto che contiene le risorse per le quali vuoi monitorare la derivazione.
- Abilita l'API Data Lineage e le API Data Catalog.
Ruoli IAM richiesti
Le informazioni sulla derivazione vengono monitorate automaticamente quando abiliti l'API Data Lineage.
Per ottenere le autorizzazioni necessarie per visualizzare i grafici di visualizzazione della derivazione, chiedi all'amministratore di concederti seguenti ruoli IAM:
-
Visualizzatore Data Catalog (
roles/datacatalog.viewer
) su un progetto di risorse Data Catalog. -
Visualizzatore derivazione dati (
roles/datalineage.viewer
) nel progetto in cui vengono utilizzati sistemi supportati dalla derivazione dei dati. -
Metadati BigQuery (
roles/bigquery.metadataViewer
)
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite la ruoli o altri ruoli predefiniti ruoli.
Per ulteriori informazioni, vedi Ruoli di derivazione dei dati.
Visualizza i grafici della derivazione in BigQuery
Per vedere il grafico di visualizzazione della derivazione dei dati da BigQuery:
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, espandi il progetto e il set di dati, quindi seleziona una tabella.
Fai clic sulla scheda Derivazione.
Viene mostrato il grafico di visualizzazione della derivazione dei dati.
(Facoltativo) Seleziona un nodo per visualizzare ulteriori dettagli sulle entità o sui processi coinvolti nella creazione delle informazioni sulla derivazione.
Per saperne di più sulla derivazione dei dati, vedi Informazioni sulla derivazione dei dati.
Tag e modelli di tag
I tag consentono alle organizzazioni di creare, cercare gestire i metadati per tutte le voci di dati in un servizio unificato.
Questa sezione spiega due concetti chiave di Data Catalog:
I tag consentono di fornire il contesto per una voce di dati allegando campi di metadati personalizzati.
I modelli di tag sono strutture riutilizzabili per creare rapidamente nuovi tag.
Tag
Data Catalog offre due tipi di tag: tag privati e tag pubblici.
Tag privati
I tag privati offrono controlli di accesso rigorosi. Puoi cercare oppure visualizzare i tag e le voci di dati associate ai tag solo se Hanno concesso le autorizzazioni di visualizzazione richieste sia sul modello di tag privato sia sui dati le voci corrispondenti.
La ricerca di tag privati nella pagina Data Catalog richiede
utilizzi la sintassi di ricerca tag:
o i filtri di ricerca.
I tag privati sono adatti a scenari in cui devi archiviare alcuni dati sensibili informazioni nel tag e vuoi applicare ulteriori limitazioni di accesso. oltre a verificare se l'utente dispone delle autorizzazioni per visualizzare la voce codificata.
Tag pubblici
I tag pubblici forniscono un controllo dell'accesso meno rigoroso per la ricerca e la visualizzazione del tag.
rispetto ai tag privati. Qualsiasi utente che dispone delle autorizzazioni di visualizzazione necessarie per
Una voce di dati può visualizzare tutti i tag pubblici associati. Visualizza autorizzazioni
dei tag pubblici è obbligatorio solo quando esegui una ricerca in Data Catalog
utilizzando la sintassi tag:
o quando visualizzi un modello di tag non collegato.
I tag pubblici supportano sia la ricerca semplice sia la ricerca con predicati nella pagina di ricerca di Data Catalog. Quando crei un modello di tag, l'opzione per creare un il modello di tag pubblico è l'opzione predefinita e consigliata nella console Google Cloud.
Ad esempio, supponiamo di avere un modello di tag pubblico chiamato employee data
utilizzato per creare tag per tre voci di dati denominate Name
, Location
,
e Salary
. Tra le tre voci di dati, solo i membri di un gruppo specifico
denominato HR
può visualizzare la voce di dati Salary
. Le altre due voci di dati
dispongono delle autorizzazioni di visualizzazione per tutti i dipendenti dell'azienda.
Se un dipendente che non è membro del gruppo HR
utilizza Data Catalog
pagina di ricerca e ricerche con la parola employee
, il risultato di ricerca
solo le voci di dati Name
e Location
con i tag pubblici associati.
I tag pubblici sono utili per una vasta gamma di scenari. I tag pubblici supportano ricerche e ricerche semplici con predicati, mentre I tag privati supportano solo la ricerca con predicati.
Modelli di tag
Per iniziare a taggare i metadati, devi prima creare uno o più modelli di tag. Un tag può essere un modello di tag pubblico o privato. Quando crei un tag modello, l'opzione per creare un modello di tag pubblico è l'impostazione predefinita consigliata nella console Google Cloud. Un modello di tag è un gruppo di metadati coppie chiave-valore chiamate campi. La disponibilità di un insieme di modelli è simile con uno schema di database per i metadati.
Puoi strutturare i tag per argomento. Ad esempio:
- Un tag
data governance
con campi per il governatore dei dati, la data di conservazione data di eliminazione, PII (sì o no), classificazione dei dati (pubblici, riservati, sensibile e normativo) - Un tag
data quality
con campi per problemi di qualità, frequenza di aggiornamento e SLO informazioni - Un tag
data usage
con campi per gli utenti principali, le query principali e la media degli utenti giornalieri
Puoi quindi combinare e abbinare i tag, utilizzando solo quelli pertinenti per ciascun dato asset e alle esigenze della tua attività.
Visualizzare la galleria dei modelli di tag
Per aiutarti a iniziare, Data Catalog include una galleria di modelli di tag di esempio per illustrare casi d'uso comuni di tagging. Utilizza questi esempi per scoprire l'efficacia del tagging, per trarre ispirazione o come punto di partenza per creando la tua infrastruttura di tagging.
Per utilizzare una galleria di modelli di tag, segui questi passaggi:
Nella console Google Cloud, vai alla pagina Modelli di tag di Dataplex.
Fai clic su Crea modello di tag.
La galleria dei modelli viene visualizzata nella pagina Crea modello.
Dopo aver selezionato un modello dalla galleria, puoi utilizzarlo come qualsiasi in un altro modello di tag. Puoi aggiungere o eliminare attributi e modificare qualsiasi cosa in il modello più adatto alle tue esigenze aziendali. Puoi quindi cercare il modello e valori usando Data Catalog.
Per ulteriori informazioni su tag e modelli di tag, consulta Tag e modelli di tag.
Risorse di regione
Ogni modello di tag e tag viene archiviato in un account Google Cloud regione. Puoi utilizzare un modello di tag per creare un tag in qualsiasi regione, quindi non è necessario crea copie del tuo modello se hai voci di metadati distribuite su più regioni.