La funzionalità Data Catalog di Dataplex è un inventario centrale degli asset di dati di un'organizzazione. Data Catalog cataloga automaticamente i metadati delle origini Google Cloud come BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable e altri. Data Catalog indicizza anche i metadati delle tabelle e dei set di file da Cloud Storage tramite la scoperta.
Puoi scoprire i dati con la funzionalità di ricerca dei metadati a livello di organizzazione regolamentata di Dataplex. Puoi arricchire ulteriormente i metadati con il contesto aziendale fondamentale e attivare il monitoraggio della derivazione, la profilazione dei dati, i controlli della qualità dei dati e le funzionalità di controllo dell'accesso.
Con Data Catalog, le organizzazioni possono migliorare il rilevamento dei dati, la gestione dei metadati e la governance.
Perché hai bisogno di Data Catalog?
La maggior parte delle organizzazioni ha a che fare con un numero elevato e crescente di asset di dati. Gli stakeholder dei dati (consumatori, produttori e amministratori) all'interno di un'organizzazione devono affrontare diverse sfide, tra cui:
Ricerca di dati utili:
- I consumer di dati non conoscono la posizione e l'origine dei dati. Devono gestire "paludi" di dati.
- I consumer di dati non sanno quali dati utilizzare per ottenere informazioni perché la maggior parte dei dati non è ben documentata e, anche se lo è, non è ben gestita.
- I dati non possono essere trovati e spesso si perdono quando si trovano solo nella mente delle persone.
Informazioni sui dati:
- I dati sono aggiornati, puliti, convalidati e approvati per l'utilizzo in produzione?
- Fra una serie di set di dati duplicati, qual è quello più aggiornato e pertinente?
- Qual è la relazione tra un set di dati e un altro?
- Chi utilizza i dati e chi ne è il proprietario?
- Chi e quali processi stanno trasformando i dati?
Rendere i dati utili:
I produttori di dati non hanno un modo efficiente per presentare i propri dati ai consumatori. Senza un servizio self-service, i consumatori possono sommergere i produttori di richieste. Molti data engineer non riescono a fornire manualmente i dati a migliaia di data analist.
I consumer dei dati rischiano di perdere molto tempo prezioso cercando di scoprire come richiedere l'accesso ai dati, attendere senza un tempo di risposta definito, riassegnare la richiesta e attendere di nuovo.
Senza gli strumenti giusti, le sfide diventano un ostacolo importante per l'uso efficiente dei dati. Data Catalog fornisce un repository centralizzato che consente alle organizzazioni di:
- Ottieni una visualizzazione unificata per semplificare la ricerca dei dati giusti.
- Supporta la presa di decisioni basate sui dati e accelera il tempo di generazione di informazioni arricchendo i dati con metadati tecnici e aziendali.
- Migliora la gestione dei dati per aumentare l'efficienza operativa e la produttività.
- Assumere la proprietà dei dati per migliorare la fiducia in essi.
Funzioni di Data Catalog
Data Catalog offre tre funzioni principali:
- Ricerca di voci di dati a cui hai accesso
- Tagging delle voci di dati con metadati
- Fornire sicurezza a livello di colonna per le tabelle BigQuery
Inoltre, Data Catalog può basarsi sui risultati di una scansione di Sensitive Data Protection per identificare i dati sensibili direttamente all'interno di Data Catalog sotto forma di modelli di tag.
Come funziona Data Catalog
Data Catalog può catalogare i metadati delle risorse provenienti da diversi sistemi Google Cloud.
Puoi anche utilizzare le API Data Catalog per l'integrazione con le origini dati personalizzate.
Dopo aver catalogato i dati, puoi aggiungere i tuoi metadati a questi asset utilizzando i tag.
Metadati di Data Catalog
Data Catalog gestisce due tipi di metadati: metadati tecnici e metadati aziendali. Per saperne di più sui metadati, consulta la sezione Metadati di Data Catalog.
Ricerca e individuazione
Data Catalog offre un'efficace esperienza di ricerca basata su predicati per i metadati tecnici e aziendali associati a una voce di dati. Devi disporre delle autorizzazioni per leggere i metadati di una voce di dati in modo da poter applicare la ricerca e il rilevamento ai metadati. Data Catalog non indicizza i dati all'interno di una voce di dati. Data Catalog indicizza solo i metadati che descrivono una risorsa.
Data Catalog controlla alcuni metadati, ad esempio i tag generati dagli utenti. Per tutti i metadati provenienti dal sistema di archiviazione sottostante, Data Catalog è un servizio di sola lettura che riflette i metadati e le autorizzazioni forniti dal sistema di archiviazione sottostante. Puoi apportare modifiche al sistema di archiviazione sottostante per aggiungere, aggiornare o eliminare i metadati di una voce di dati.
Per scoprire di più sulla ricerca in Data Catalog, consulta Cercare asset di dati con Data Catalog.
Catalogazione automatica degli asset
Per un determinato progetto, Data Catalog cataloga automaticamente i seguenti asset Google Cloud:
- Set di dati collegati di Analytics Hub
- Set di dati, tabelle, modelli, routine e connessioni BigQuery
- Istanze, cluster e tabelle Bigtable (inclusi i dettagli famiglia di colonne)
- Lake, zone, tabelle e set di file Dataplex
- Servizi, database e tabelle di Dataproc Metastore
- Argomenti Pub/Sub
- Istanze, database, tabelle e visualizzazioni Spanner
Modelli Vertex AI, set di dati e risorse Vertex AI Feature Store
Oltre a catalogare gli asset all'interno degli ID progetto per i quali hai accesso ai metadati, Data Catalog può catalogare i dati archiviati nei progetti BigQuery che contengono set di dati pubblici.
Cataloga gli asset non Google Cloud
Per catalogare i metadati dei sistemi non Google Cloud della tua organizzazione, puoi utilizzare quanto segue:
- Connettori forniti dalla community a più origini dati on-premise di uso comune
- Esegui la compilazione manuale sulle API Data Catalog per le voci personalizzate
Accedere a Data Catalog
Puoi accedere alle funzionalità di Data Catalog utilizzando:
Dataplex nella console Google Cloud
Interfaccia a riga di comando (CLI)
gcloud
Passaggi successivi
Scopri come collegare i tag a una tabella BigQuery utilizzando Data Catalog.
Scopri come cercare gli asset di dati con Data Catalog.
Scopri come integrare le origini dati Google Cloud e on-premise con Data Catalog.