Data Catalog di Dataplex è un inventario centrale degli asset di dati di un'organizzazione. Data Catalog cataloga automaticamente i metadati da origini Google Cloud come BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable e altre ancora. Data Catalog indicizza anche i metadati di tabelle e set di file da Cloud Storage tramite discovery.
Puoi rilevare i dati con la funzionalità di ricerca dei metadati regolata a livello di organizzazione di Dataplex. Puoi arricchire ulteriormente i metadati con un contesto aziendale critico e abilitare funzionalità di monitoraggio della derivazione, profilazione dei dati, controlli della qualità dei dati e controllo dell'accesso.
Con Data Catalog le organizzazioni possono migliorare rilevamento dei dati, gestione e governance dei metadati.
Perché hai bisogno di Data Catalog?
La maggior parte delle organizzazioni oggi ha a che fare con un numero elevato e crescente di asset di dati.
Gli stakeholder dei dati (consumatori, produttori e amministratori) all'interno di un'organizzazione devono affrontare molteplici sfide:
Ricerca di dati approfonditi:
- I consumatori dei dati non conoscono la località e l'origine dei dati. Devono esplorare le "palude" dei dati.
- I consumatori dei dati non sanno quali dati utilizzare per ottenere insight perché la maggior parte dei dati non è ben documentato e, anche se documentato, non è ben gestito.
- I dati non possono essere trovati e spesso vanno persi quando risiedono solo nella mente delle persone.
Comprensione dei dati:
- I dati sono aggiornati, puliti, convalidati e approvati per l'uso in produzione?
- Quale set di dati di diversi set duplicati è pertinente e aggiornato?
- Qual è la relazione tra un set di dati e un altro?
- Chi sta utilizzando i dati e chi è il proprietario?
- Chi e quali processi stanno trasformando i dati?
Rendere utili i dati:
I produttori di dati non dispongono di un modo efficiente per presentare i loro dati ai consumatori. In assenza di un self-service, i consumatori potrebbero sopraffare i produttori. Diversi data engineer non possono fornire manualmente i dati a migliaia di data analisti.
Perdi tempo prezioso se i consumatori dei dati devono scoprire come richiedere l'accesso ai dati, attendere senza un tempo di risposta definito, riassegnare e attendere di nuovo.
Senza gli strumenti giusti, le sfide diventano un grave ostacolo all'uso efficiente dei dati. Data Catalog offre un repository centralizzato che consente alle organizzazioni di:
- Ottieni una vista unificata per ridurre le difficoltà di ricerca dei dati giusti.
- Supporta il processo decisionale basato sui dati e accelera i tempi di approfondimento mediante l'arricchimento dei dati con metadati tecnici e aziendali.
- Migliora la gestione dei dati per aumentare l'efficienza operativa e la produttività.
- Assumere la proprietà dei dati per migliorarne l'affidabilità e l'affidabilità.
Funzioni di Data Catalog
Data Catalog offre tre funzioni principali:
- Ricerca di voci di dati a cui si ha accesso
- Tagging delle voci di dati con i metadati
- Fornire sicurezza a livello di colonna per le tabelle BigQuery
Inoltre, Data Catalog può basarsi sui risultati di una scansione di Sensitive Data Protection per identificare i dati sensibili direttamente all'interno di Data Catalog sotto forma di modelli di tag.
Come funziona Data Catalog
Data Catalog può catalogare i metadati degli asset da diversi sistemi Google Cloud.
Puoi anche utilizzare le API Data Catalog per l'integrazione con origini dati personalizzate.
Dopo aver catalogato i dati, puoi aggiungere i tuoi metadati a queste risorse utilizzando i tag.
Metadati di Data Catalog
Data Catalog gestisce due tipi di metadati: metadati tecnici e metadati aziendali. Per saperne di più sui metadati, consulta la pagina Metadati Data Catalog.
Ricerca e individuazione
Data Catalog offre una potente esperienza di ricerca basata sui predicati per i metadati tecnici e aziendali associati a una voce di dati. Devi disporre delle autorizzazioni necessarie per leggere i metadati per una voce di dati in modo da poter applicare funzionalità di ricerca e rilevamento ai metadati. Data Catalog non indicizza i dati all'interno di una voce. Data Catalog indicizza solo i metadati che descrivono un asset.
Data Catalog controlla alcuni metadati, come i tag generati dagli utenti. Per tutti i metadati provenienti dal sistema di archiviazione sottostante, Data Catalog è un servizio di sola lettura che riflette i metadati e le autorizzazioni forniti dal sistema di archiviazione sottostante. Puoi apportare modifiche nel sistema di archiviazione sottostante per aggiungere, aggiornare o eliminare i metadati di una voce di dati.
Per saperne di più sulla ricerca in Data Catalog, consulta Cercare asset di dati con Data Catalog.
Catalogazione automatica delle risorse
Per un determinato progetto, Data Catalog cataloga automaticamente i seguenti asset Google Cloud:
- Set di dati collegati ad Analytics Hub
- Set di dati, tabelle, modelli, routine e connessioni BigQuery
- Istanze, cluster e tabelle Bigtable (inclusi i dettagli famiglia di colonne)
- Lake, zone, tabelle e set di file Dataplex
- Servizi, database e tabelle Dataproc Metastore
- argomenti Pub/Sub
- Istanze, database, tabelle e viste Spanner
Modelli Vertex AI, set di dati e risorse Vertex AI Feature Store
Oltre a catalogare gli asset all'interno degli ID progetto per i quali hai accesso ai metadati, Data Catalog può catalogare i dati archiviati nei progetti BigQuery che contengono set di dati pubblici.
Catalogo degli asset non Google Cloud
Per catalogare i metadati da sistemi non Google Cloud nella tua organizzazione, puoi utilizzare quanto segue:
- Connettori della community a più origini dati on-premise
- Crea manualmente sulle API Data Catalog per voci personalizzate
Accedi a Data Catalog
Puoi accedere alle funzionalità di Data Catalog utilizzando:
Dataplex nella console Google Cloud
Interfaccia a riga di comando (CLI) di
gcloud
Passaggi successivi
Per iniziare a utilizzare il tagging di Data Catalog, consulta Creare modelli di tag, tag, panoramiche e gestori dati.
Per iniziare a utilizzare la ricerca e il rilevamento di Data Catalog, consulta Cercare e visualizzare asset di dati con Data Catalog.
Per integrare le origini dati, segui i passaggi descritti in Integrare le origini dati di Google Cloud e on-premise.