Panoramica di Dataplex Catalog

Questo documento descrive Dataplex Catalog, che fornisce una piattaforma per archiviare, gestire e accedere ai metadati.

Dataplex Catalog fornisce un inventario unificato delle risorse Google Cloud, come BigQuery, e di altre risorse, come le risorse on-premise. Dataplex Catalog recupera automaticamente i metadati per le risorse Google Cloud e tu importi i metadati per le risorse di terze parti in Dataplex Catalog.

Dataplex Catalog ti consente di arricchire il tuo inventario con metadati tecnici e aziendali aggiuntivi per acquisire il contesto e le conoscenze sulle tue risorse. Con Dataplex Catalog, puoi cercare e scoprire i tuoi dati nell'intera organizzazione e attivare la governance dei dati per le tue risorse di dati.

Casi d'uso

Puoi utilizzare Dataplex Catalog per:

  • Scopri e comprendi i tuoi dati. Dataplex Catalog fornisce visibilità sulle risorse di dati dell'intera organizzazione. Ti consente di trovare risorse pertinenti per le esigenze di consumo dei dati. Fornisce il contesto per le risorse di dati, il che ti aiuta a comprendere l'idoneità delle risorse di dati per le esigenze dei tuoi utenti di dati.

  • Attiva la governance e la gestione dei dati. Dataplex Catalog fornisce metadati che possono fornire informazioni e potenziare le funzionalità di governance e gestione dei dati.

  • Gestisci un repository estensibile e completo per i metadati. Dataplex Catalog archivia e fornisce l'accesso ai metadati raccolti automaticamente dalle risorse Google Cloud. Puoi integrare i tuoi metadati da sistemi non Google Cloud. Puoi arricchire tutti i metadati con annotazioni aggiuntive di metadati aziendali e tecnici.

Come funziona Dataplex Catalog

Dataplex Catalog si basa sui seguenti concetti:

  • Voce: una voce rappresenta una risorsa di dati. La maggior parte dei metadati è descritta dagli aspetti all'interno di una voce. È simile alle voci in Data Catalog. Per ulteriori informazioni, consulta la sezione Voce.

  • Aspetto: un aspetto è un insieme di campi di metadati correlati all'interno di una voce. Un aspetto può essere interpretato come un elemento costitutivo di una voce o come metadati aggiuntivi. È simile ai tag in Data Catalog, tuttavia gli aspetti vengono archiviati all'interno delle voci e non come risorse autonome. Per ulteriori informazioni, consulta Aspetti.

  • Tipo di aspetto: un tipo di aspetto è un modello riutilizzabile per gli aspetti. Ogni aspetto è un'istanza di un tipo di aspetto. È simile ai modelli di tag in Data Catalog. Per ulteriori informazioni, consulta Tipi di aspetti.

  • Gruppo di voci: un gruppo di voci è un contenitore di voci che funge da unità di gestione per queste voci. Ad esempio, utilizza un gruppo di voci per configurare il controllo dell'accesso, l'attribuzione del progetto o la posizione di Identity and Access Management per le voci del gruppo. È simile ai gruppi di voci in Data Catalog. Per ulteriori informazioni, consulta Gruppi di voci.

  • Tipo di voce: un tipo di voce è un modello per la creazione di voci. Stabilisce gli elementi essenziali dei metadati, descritti come un elenco di aspetti obbligatori per le voci di questo tipo. Per ulteriori informazioni, consulta Tipi di voci.

    Voci e gruppi di voci
    Figura 1. Voci e gruppi di voci
    Tipi di aspetti e tipi di voci
    Figura 2. Tipi di aspetti e tipi di voci

Di seguito sono riportati alcuni casi d'uso di Dataplex Catalog:

  • In qualità di analista di dati o analista aziendale, puoi cercare le voci nell'organizzazione ed esplorare i metadati associati. Per maggiori informazioni, consulta Cercare asset di dati.
  • In qualità di proprietario o gestore dei dati, puoi acquisire metadati tecnici e aziendali aggiuntivi annotando le voci con gli aspetti. Per ulteriori informazioni, consulta Gestire gli aspetti e arricchire i metadati.
  • In qualità di proprietario o gestore dei dati, puoi garantire la coerenza dei metadati definendo gli standard per le annotazioni (utilizzando i tipi di aspetti) e le voci personalizzate (utilizzando i tipi di voci). Per ulteriori informazioni, consulta Gestire gli aspetti e arricchire i metadati.
  • In qualità di data engineer, puoi avere un inventario unificato per le tue risorse, incluse le risorse Google Cloud e quelle di sistemi di terze parti. Le risorse Google Cloud vengono raccolte automaticamente da Dataplex Catalog, mentre quelle non Google Cloud vengono raccolte da te. Per saperne di più, consulta Gestire le voci e importare le origini personalizzate.

Per gli utenti esistenti di Data Catalog

Se utilizzi già Data Catalog, tieni presente quanto segue:

  • Le voci personalizzate, il contesto di panoramica e i gruppi di voci che hai creato in Data Catalog vengono resi disponibili in Dataplex Catalog.
  • I tag e i modelli di tag creati in Data Catalog non sono disponibili in Dataplex Catalog.
  • Quando cerchi asset di dati in Dataplex Catalog, vengono inclusi sia i metadati creati direttamente in Dataplex Catalog sia quelli importati da Data Catalog.
  • Quando cerchi asset di dati in Data Catalog, vengono inclusi solo i metadati creati in Data Catalog.
  • Le descrizioni dei gruppi di voci in Data Catalog che superano i 1024 caratteri vengono troncate a 1024 caratteri in Dataplex Catalog.

Confronto tra Dataplex Catalog e Data Catalog

Dataplex Catalog offre una funzionalità per gestire i metadati in Dataplex. È dotato di un'area di archiviazione dei metadati separata e di un nuovo insieme di metodi API integrati nell'API Dataplex.

Le funzionalità principali di Dataplex Catalog includono:

  • Metamodello più solido

    • Voci digitate. Puoi applicare standard minimi per i metadati definendo i contenuti obbligatori per le voci personalizzate
    • Metamodello configurabile dall'utente per le voci personalizzate, che contribuisce a rendere più solida l'importazione personalizzata e migliora la coerenza e la completezza dei metadati personalizzati.
    • Supporto per una maggiore varietà e complessità dei metadati, incluso il supporto per strutture nidificate come elenchi, mappe e array.
  • Scalabilità migliorata, inclusa la possibilità di interagire con tutti i metadati associati a una voce tramite singole operazioni CRUD atomiche e la possibilità di recuperare più annotazioni dei metadati associati nelle risposte di ricerca o elenco.

La seguente tabella mette a confronto le funzionalità di Dataplex Catalog e Data Catalog:

Confronto tra Dataplex Catalog e Data Catalog
Funzionalità Dataplex Catalog Data Catalog
Origini Google Cloud supportate Tutte le origini descritte nella sezione Origini Google Cloud supportate di questo documento. Tutte le origini descritte in Voci e gruppi di voci.
Importazione di origini personalizzate

Importazione in voci personalizzate con struttura regolamentata, definita dai tipi di voce.

Le voci e i gruppi di voci personalizzati di Data Catalog sono resi disponibili in Dataplex Catalog nel tipo di voce generic.

Importazione in voci personalizzate generiche.
Arricchimento dei metadati Il contesto dei metadati per le voci viene acquisito utilizzando aspetti e tipi di aspetti. Il contesto dei metadati per le voci viene acquisito utilizzando i tag e i modelli di tag.
Cerca La ricerca viene eseguita sui seguenti elementi:
  • Tutte le origini Google Cloud descritte in Origini Google Cloud supportate
  • Voci personalizzate create in Dataplex Catalog
  • Aspetti creati in Dataplex Catalog
  • Voci personalizzate create in Data Catalog e importate in Dataplex Catalog

I risultati di ricerca includono solo le risorse che appartengono allo stesso perimetro VPC-SC del progetto in base al quale viene eseguita la ricerca. Quando utilizzi la console Google Cloud, si tratta del progetto selezionato nella console.

Tieni presente che, per cercare le voci, devi disporre di almeno uno dei ruoli IAM di Dataplex Catalog per il progetto utilizzato per la ricerca. Le autorizzazioni per i risultati di ricerca vengono controllate indipendentemente dal progetto selezionato.

La ricerca viene eseguita sui seguenti elementi:
  • Tutte le origini Google Cloud descritte in Enti e gruppi di enti
  • Voci personalizzate create in Data Catalog
  • Tag creati in Data Catalog

La tabella seguente descrive in che modo le risorse di Dataplex Catalog corrispondono alle risorse di Data Catalog:

Mappatura tra le risorse di Dataplex Catalog e Data Catalog
Risorsa Dataplex Catalog Risorsa Data Catalog Descrizione
Tipo di aspetto (global) Modello di tag pubblico I modelli di tag sono risorse a livello di regione. Tuttavia, puoi utilizzarli per creare tag in più regioni. I modelli di tag corrispondono ai global tipi di aspetti in Dataplex Catalog.
Aspetto facoltativo Tag pubblico I tag pubblici in Data Catalog corrispondono agli aspetti facoltativi in Dataplex Catalog.
Gruppo di voci Gruppo di voci Per le origini Google Cloud, i gruppi di voci di sistema come @bigquery vengono stabiliti per progetto in Dataplex Catalog.
Aspetti obbligatori delle voci personalizzate Voce personalizzata

Data Catalog e Dataplex Catalog condividono concetti simili per le voci personalizzate.

Le proprietà delle voci standard sono modellate come aspetti obbligatori in Dataplex Catalog.

Aspetti obbligatori per l'accesso al sistema Voce Sistema (Google Cloud) I metadati che descrivono le entità predefinite, ad esempio Schema per le tabelle BigQuery, vengono acquisiti negli aspetti obbligatori dei tipi di aspetti definiti dal sistema.

Per ulteriori informazioni sulle funzionalità disponibili in Data Catalog e non supportate in Dataplex Catalog, consulta la sezione Funzionalità non supportate in Dataplex Catalog di questo documento.

Origini supportate

I metadati delle seguenti origini Google Cloud vengono importati automaticamente in Dataplex Catalog:

  • Scambi e schede di Analytics Hub
  • Set di dati, tabelle, modelli, routine, connessioni e set di dati collegati BigQuery
  • Istanze, cluster e tabelle Bigtable (inclusi i dettagli delle famiglie di colonne)
  • Istanze, database, schemi, tabelle e visualizzazioni Cloud SQL: consulta Attivare l'integrazione di Cloud SQL
  • Servizi, database e tabelle di Dataproc Metastore
  • Argomenti Pub/Sub
  • Istanze, database, tabelle e visualizzazioni Spanner
  • Modelli, set di dati, gruppi di funzionalità, visualizzazioni delle funzionalità e istanze di negozi online Vertex AI

Per importare i metadati da un'origine di terze parti in Dataplex Catalog, puoi utilizzare una pipeline di connettività gestita.

Vincoli di progetto e località

Le risorse di Dataplex Catalog si trovano in vari progetti e località. Si applicano le seguenti limitazioni:

  • Località:

    • La posizione di una voce deve corrispondere a quella del tipo di voce o il tipo di voce deve essere global.
    • Un aspetto aggiunto a una voce deve essere basato su un tipo di aspetto archiviato nella stessa posizione della voce o il tipo di aspetto deve essere global.
    • Un tipo di voce deve essere composto da tipi di aspetti archiviati nella stessa posizione del tipo di voce.
  • Progetto:

    • Se un tipo di voce fa riferimento a tipi di aspetto personalizzato, questi tipi devono trovarsi nella stessa posizione e nello stesso progetto del tipo di voce.

Funzionalità non supportate in Dataplex Catalog

Le seguenti funzionalità disponibili in Data Catalog non sono supportate in Dataplex Catalog:

  • La nozione di aspetti e tipi di aspetti privati non è supportata in Dataplex Catalog. L'accesso agli aspetti è regolato dalle autorizzazioni associate alla voce che li contiene. Per ulteriori informazioni, consulta Ruoli IAM di Dataplex.
  • La ricerca dei tag delle norme non è supportata nella ricerca di Dataplex Catalog. Di conseguenza, i predicati policytag e policytagid non funzionano nella ricerca di Dataplex Catalog.
  • Per le voci personalizzate di Data Catalog importate in Dataplex Catalog, le autorizzazioni IAM esistenti per i metadati correnti non vengono propagate automaticamente ai metadati copiati. Devi configurare esplicitamente le autorizzazioni IAM per i metadati copiati prima di utilizzarli.
  • L'invio dei risultati dei job Sensitive Data Protection a Dataplex Catalog non è supportato.
  • Non puoi elencare i tipi di voci e di aspetti nei progetti utilizzando l'API. Puoi limitare l'ambito della richiesta dell'elenco a un solo progetto.
  • Non puoi associare termini del glossario aziendale alle colonne delle voci di Dataplex.
  • Non puoi modificare l'elenco dei tipi di aspetto obbligatori in un tipo di voce dopo la creazione del tipo di voce.
  • Per le voci create direttamente in Dataplex Catalog, la cronologia dei dati mostra gli eventi della cronologia nella console Google Cloud, ma non le informazioni dettagliate sull'origine, sulla destinazione o sul processo. Inoltre, la cronologia dei dati non mostra gli aspetti per nessuna voce nella console Google Cloud.

Prezzi

Dataplex utilizza lo SKU di archiviazione dei metadati per addebitare l'archiviazione dei metadati. Per ulteriori informazioni, consulta Prezzi di Dataplex.

Non sono previsti costi per l'utilizzo di quanto segue:

  • Creazione e gestione delle risorse di Dataplex Catalog
  • Chiamate API di ricerca per Dataplex Catalog
  • Query di ricerca eseguite nella pagina Catalogo Dataplex della console Google Cloud

Passaggi successivi