Panoramica di Dataplex Universal Catalog

Dataplex Universal Catalog è una soluzione di governance unificata e intelligente per gli asset di dati e AI in Google Cloud. Tramite il Catalogo universale Dataplex, puoi utilizzare l'AI per semplificare le query sui dati, il controllo qualità e gli approfondimenti aziendali.

Dataplex Universal Catalog esegue la governance su larga scala. Ad esempio, considera un'azienda di vendita al dettaglio globale che genera grandi quantità di dati di vendite, inventario e clienti archiviati in Cloud Storage, Spanner e Pub/Sub. Con i dati distribuiti tra i sistemi, può essere complesso e richiedere molto tempo gestire la governance, garantire la qualità e mantenere la conformità. Dataplex Universal Catalog semplifica questo processo fornendo una visualizzazione centrale per scoprire, profilare, convalidare, monitorare la derivazione e controllare l'accesso agli asset di dati dell'organizzazione.

Perché utilizzare Dataplex Universal Catalog?

Dataplex Universal Catalog governa i dati tramite le seguenti funzionalità:

  • Catalogazione dei metadati. Recupera i metadati per Google Cloud le risorse (in BigQuery, Cloud SQL, Spanner, Vertex AI, Pub/Sub, Dataform, Dataproc Metastore) e le risorse di terze parti che importi nel catalogo universale Dataplex, per uno snapshot dei tuoi asset di dati.
  • Data Discovery. Esegui la scansione dei dati strutturati e non strutturati nei bucket Cloud Storage per estrarre e catalogare i relativi metadati.
  • Informazioni basate sui dati. Utilizza l'AI per generare domande in linguaggio naturale sui tuoi dati, per scoprire pattern, valutare la qualità dei dati ed eseguire analisi statistiche.
  • Profilazione dei dati. Identifica le caratteristiche comuni dei dati delle colonne nelle tabelle BigQuery, ad esempio valori tipici dei dati, distribuzione dei dati e conteggi nulli, che possono fornire informazioni per la classificazione dei dati e il controllo qualità.
  • Qualità dei dati. Definisci e misura la qualità dei dati nelle tabelle BigQuery con la convalida dei dati in base ai criteri dell'organizzazione e la registrazione di avvisi se i dati non soddisfano i criteri di qualità.
  • Glossario aziendale. Gestisci la terminologia e le definizioni relative all'attività in tutta l'organizzazione e collega i termini alle colonne della tabella per promuovere una comprensione coerente dell'utilizzo dei dati.
  • Lignaggio dei dati. Monitora il modo in cui i dati vengono trasferiti nei sistemi: da dove provengono, dove vengono inviati e a quali trasformazioni sono sottoposti.

Dataplex Universal Catalog supporta un ciclo di vita dei dati end-to-end, dalla scoperta distribuita agli approfondimenti aziendali. Le funzionalità di governance sono disponibili anche tramite BigQuery.

Casi d'uso

Puoi utilizzare Dataplex Universal Catalog per:

  • Scopri e comprendi i tuoi dati. Dataplex Universal Catalog offre visibilità sulle risorse di dati in tutta l'organizzazione. Consente di trovare risorse pertinenti per le esigenze di consumo dei dati. Fornisce il contesto per le risorse di dati, il che ti aiuta a comprendere l'idoneità delle risorse di dati per le esigenze del tuo consumatore di dati.

  • Attiva la governance e la gestione dei dati. Dataplex Universal Catalog fornisce metadati che possono informare e potenziare le funzionalità di governance e gestione dei dati.

  • Mantenere un repository estensibile e completo per i metadati. Il Catalogo universale Dataplex archivia e fornisce l'accesso ai metadati che vengono raccolti automaticamente dalle tue risorse Google Cloud . Puoi integrare i tuoi metadati da sistemi nonGoogle Cloud . Puoi arricchire tutti i metadati con annotazioni aggiuntive di metadati tecnici e aziendali.

Inizia

Se è la prima volta che utilizzi Dataplex Universal Catalog, ti consigliamo di seguire una guida rapida:

Passaggi successivi