Panoramica di Data Catalog

Data Catalog di Dataplex è un inventario centrale degli asset di dati di un'organizzazione. Data Catalog cataloga automaticamente i metadati dalle origini Google Cloud come BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable e altre. Data Catalog indicizza anche i metadati di tabelle e set di file da Cloud Storage tramite la scoperta.

Puoi individuare facilmente i dati con la funzionalità di ricerca dei metadati a livello di organizzazione di Dataplex. Puoi arricchire ulteriormente i metadati con il contesto aziendale critico e abilitare il monitoraggio della derivazione, la profilazione dei dati, i controlli di qualità dei dati e le funzionalità di controllo dell'accesso.

Con Data Catalog, le organizzazioni possono migliorare l'individuazione dei dati, la gestione dei metadati e la governance.

Perché hai bisogno di Data Catalog?

La maggior parte delle organizzazioni oggi ha a che fare con un numero elevato e crescente di asset di dati.

Gli stakeholder dei dati (consumatori, produttori e amministratori) all'interno di un'organizzazione devono affrontare molteplici sfide:

  • Ricerca di dati approfonditi:

    • I consumatori dei dati non conoscono la posizione e l'origine dei dati. Devono navigare tra i dati nelle "palude".
    • I consumatori dei dati non sanno quali dati utilizzare per ottenere insight perché la maggior parte dei dati non è ben documentata e, anche se documentata, non è ben gestita.
    • I dati non possono essere trovati e spesso vengono persi quando risiedono solo nella mente delle persone.
  • Comprendere i dati:

    • I dati sono aggiornati, puliti, convalidati e approvati per l'uso in produzione?
    • Tra i vari set duplicati, quale set di dati è pertinente e aggiornato?
    • Qual è la relazione tra un set di dati e un altro?
    • Chi utilizza i dati e chi è il proprietario?
    • Chi e quali processi stanno trasformando i dati?
  • Rendere utili i dati:

    • I produttori di dati non hanno un modo efficiente per presentare i loro dati ai consumatori. In assenza di un servizio self-service, i consumatori potrebbero sovraccaricare i produttori. Diversi data engineer non possono fornire manualmente i dati a migliaia di analisti di dati.

    • Si perde tempo prezioso se i consumatori dei dati devono scoprire come richiedere l'accesso ai dati, attendere senza un tempo di risposta definito, riassegnare la richiesta e attendere di nuovo.

Senza gli strumenti giusti, le sfide diventano un grande ostacolo all'uso efficiente dei dati. Data Catalog fornisce un repository centralizzato che consente alle organizzazioni di:

  • Ottieni una visualizzazione unificata per ridurre le difficoltà di ricerca dei dati giusti.
  • Supporta il processo decisionale basato sui dati e accelera i tempi di approfondimento dei dati arricchiti con metadati tecnici e aziendali.
  • Migliora la gestione dei dati per aumentare l'efficienza operativa e la produttività.
  • Assumi la proprietà sui dati per aumentare la fiducia che li riguardano.

Funzioni di Data Catalog

Data Catalog fornisce tre funzioni principali:

  • Ricerca di voci di dati a cui hai accesso
  • Tagging delle voci di dati con i metadati
  • Fornire la sicurezza a livello di colonna per le tabelle BigQuery

Inoltre, Data Catalog può basarsi sui risultati di un'analisi di Sensitive Data Protection per identificare i dati sensibili direttamente in Data Catalog sotto forma di modelli di tag.

Come funziona Data Catalog

Data Catalog può catalogare i metadati delle risorse di diversi sistemi Google Cloud.

Puoi anche utilizzare le API Data Catalog per l'integrazione con le origini dati personalizzate.

Dopo aver catalogato i dati, puoi aggiungere i tuoi metadati a queste risorse utilizzando i tag.

Data Catalog rileva i metadati dalle origini dati di Google Cloud come BigQuery, Pub/Sub, Dataproc Metastore e Cloud Storage, oltre che da origini dati non cloud come Hive e Oracle.
Figura 1. Data Catalog legge i metadati dai servizi Google Cloud e dalle origini dati personalizzate.

Metadati di Data Catalog

Data Catalog gestisce due tipi di metadati: metadati tecnici e metadati aziendali. Per saperne di più sui metadati, consulta Metadati di Data Catalog.

Ricerca e individuazione

Data Catalog offre una potente esperienza di ricerca basata su predicati per i metadati tecnici e aziendali associati a un'immissione di dati. Devi disporre delle autorizzazioni per leggere i metadati di una voce di dati in modo da poter applicare ricerca e rilevamento ai metadati. Data Catalog non indicizza i dati all'interno di una voce di dati. Data Catalog indicizza solo i metadati che descrivono una risorsa.

Data Catalog controlla alcuni metadati, ad esempio i tag generati dagli utenti. Per tutti i metadati provenienti dal sistema di archiviazione sottostante, Data Catalog è un servizio di sola lettura che riflette i metadati e le autorizzazioni forniti dal sistema di archiviazione sottostante. Puoi apportare modifiche al sistema di archiviazione sottostante per aggiungere, aggiornare o eliminare i metadati di una voce di dati.

Per saperne di più sulla ricerca di Data Catalog, consulta Cercare asset di dati con Data Catalog.

Catalogazione automatica degli asset

Per un determinato progetto, Data Catalog cataloga automaticamente i seguenti asset di Google Cloud:

  • Set di dati collegati ad Analytics Hub
  • Set di dati, tabelle, modelli, routine e connessioni BigQuery
  • Istanze, cluster e tabelle Bigtable (inclusi i dettagli famiglia di colonne)
  • Laghi, zone, tabelle e set di file Dataplex
  • Servizi, database e tabelle di Dataproc Metastore
  • argomenti Pub/Sub
  • Istanze, database, tabelle e viste Spanner
  • Modelli Vertex AI, set di dati e risorse di Vertex AI Feature Store

Oltre a catalogare le risorse all'interno degli ID progetto per i quali hai accesso ai metadati, Data Catalog può catalogare i dati archiviati nei progetti BigQuery che contengono set di dati pubblici.

Cataloga gli asset non Google Cloud

Per catalogare i metadati da sistemi non Google Cloud nella tua organizzazione, puoi utilizzare quanto segue:

Accedi a Data Catalog

Puoi accedere alle funzionalità di Data Catalog utilizzando:

Passaggi successivi