Panoramica di Dataplex Catalog

Questo documento descrive Dataplex Catalog, che fornisce una piattaforma per l'archiviazione, la gestione e l'accesso ai metadati.

Dataplex Catalog offre un inventario unificato di risorse Google Cloud, come BigQuery, e altre risorse, ad esempio le risorse on-premise. I metadati per le risorse Google Cloud vengono raccolti automaticamente e tu trasferisci i metadati per le risorse di terze parti in Dataplex Catalog.

Dataplex Catalog ti consente di arricchire il tuo inventario con metadati aziendali e tecnici aggiuntivi per acquisire il contesto e le conoscenze delle tue risorse. Con Dataplex Catalog puoi cercare e scoprire i tuoi dati in tutta l'organizzazione e abilitare la governance dei dati sugli asset di dati.

Casi d'uso

Puoi utilizzare Dataplex Catalog per fare quanto segue:

  • Scopri e comprendi i tuoi dati. Dataplex Catalog offre visibilità sulle risorse di dati in tutta l'organizzazione. Consente di trovare risorse pertinenti per le esigenze di consumo dei dati. Fornisce un contesto per le risorse di dati, aiutandoti a comprendere l'adeguatezza delle risorse di dati per le esigenze del consumatore di dati.

  • Abilita la governance e la gestione dei dati. Dataplex Catalog fornisce metadati che possono informare e potenziare le tue funzionalità di governance e gestione dei dati.

  • Gestisci un repository estensibile e completo per i tuoi metadati. Dataplex Catalog archivia e fornisce accesso ai metadati raccolti automaticamente dalle risorse Google Cloud. Puoi integrare i tuoi metadati da sistemi non Google Cloud. Puoi arricchire tutti i metadati con ulteriori annotazioni sui metadati aziendali e tecnici.

Come funziona Dataplex Catalog

Dataplex Catalog si basa sui seguenti concetti:

  • Voce: una voce rappresenta un asset di dati. La maggior parte dei metadati è descritta da diversi aspetti all'interno di una voce. Questo è simile alle voci in Data Catalog. Per ulteriori informazioni, consulta Voci.

  • Aspetto: un aspetto è un insieme di campi di metadati correlati all'interno di una voce. Un aspetto può essere interpretato come un componente di base di una voce o come metadati aggiuntivi. È simile ai tag in Data Catalog, tuttavia gli aspetti vengono archiviati all'interno delle voci e non come risorse autonome. Per ulteriori informazioni, consulta la sezione Aspetti.

  • Tipo di aspetto: un tipo di aspetto è un modello riutilizzabile per gli aspetti. Ogni aspetto è un'istanza di un tipo di aspetto. Questo approccio è simile ai modelli di tag in Data Catalog. Per ulteriori informazioni, consulta la sezione Tipi di aspetto.

  • Gruppo di voci: un gruppo di voci è un container di voci che funge da unità di gestione delle voci. Ad esempio, utilizza un gruppo di voci per configurare il controllo dell'accesso IAM, l'attribuzione del progetto o la posizione delle voci nel gruppo di voci. Questo approccio è simile ai gruppi di voci in Data Catalog. Per ulteriori informazioni, vedi Gruppi di voci.

  • Tipo di voce: un tipo di voce è un modello per la creazione di voci. Stabilisce gli elementi essenziali dei metadati, descritti come un elenco di aspetti obbligatori per le voci di questo tipo. Per ulteriori informazioni, consulta la sezione Tipi di voce.

    Voci e gruppi di voci
    Figura 1. Voci e gruppi di voci
    Tipi di aspetto e di voce
    Figura 2. Tipi di aspetto e di voce

Di seguito sono riportati alcuni casi d'uso per Dataplex Catalog:

  • In qualità di analista di dati o business, puoi cercare voci in tutta l'organizzazione ed esplorare i metadati associati alle voci. Per scoprire di più, consulta Cercare asset di dati.
  • In qualità di proprietario dei dati o governatore dei dati, puoi acquisire ulteriori metadati tecnici e aziendali annotando le voci con alcuni aspetti. Per maggiori informazioni, consulta Gestire gli aspetti e arricchire i metadati.
  • In qualità di proprietario dei dati o governatore dei dati, puoi garantire la coerenza nei metadati definendo gli standard per l'annotazione (utilizzando i tipi di aspetto) e le voci personalizzate (utilizzando i tipi di voce). Per maggiori informazioni, consulta Gestire gli aspetti e arricchire i metadati.
  • In qualità di data engineer, puoi avere un inventario unificato per le tue risorse, tra cui quelle di Google Cloud e quelle di sistemi di terze parti. Le risorse Google Cloud vengono raccolte automaticamente da Dataplex Catalog, mentre le risorse non Google Cloud vengono raccolte da te. Per maggiori informazioni, consulta Gestire le voci e importare origini personalizzate.

Se utilizzi già Data Catalog, tieni presente quanto segue:

  • Voci personalizzate, contesto della panoramica e gruppi di voci creati in Data Catalog vengono resi disponibili in Dataplex Catalog.
  • I tag e i modelli di tag creati in Data Catalog non sono disponibili in Dataplex Catalog.
  • Quando cerchi asset di dati in Dataplex Catalog, vengono inclusi sia i metadati creati direttamente in Dataplex Catalog sia i metadati trasferiti da Data Catalog a Dataplex Catalog.
  • Quando cerchi asset di dati in Data Catalog, vengono inclusi solo i metadati creati in Data Catalog.
  • Le descrizioni dei gruppi di voci in Data Catalog che superano i 1024 caratteri vengono troncate a 1024 caratteri in Dataplex Catalog.

Dataplex Catalog e Data Catalog

Dataplex Catalog offre la possibilità di gestire i metadati in Dataplex. Dispone di un'archiviazione separata per i metadati e di un nuovo set di metodi dell'API integrati nell'API Dataplex.

Le funzionalità principali di Dataplex Catalog includono quanto segue:

  • Metamodello più efficace

    • Voci digitate. Puoi applicare standard minimi dei metadati definendo i contenuti dei metadati richiesti per le voci personalizzate
    • Metamodello configurabile dall'utente per voci personalizzate, che aiuta a rendere più solida l'importazione personalizzata e migliora la coerenza e la completezza dei metadati personalizzati.
    • Supporto per una più ampia varietà e complessità dei metadati, compreso il supporto di strutture di nidificazione come elenchi, mappe e array.
  • Scalabilità migliorata, inclusa la possibilità di interagire con tutti i metadati associati a una voce tramite singole operazioni CRUD atomiche e la possibilità di recuperare più annotazioni di metadati associate alle risposte di ricerca o elenco.

La tabella seguente mette a confronto le funzionalità di Dataplex Catalog e Data Catalog:

Confronto tra Dataplex Catalog e Data Catalog
Selezione delle Catalogo Dataplex Data Catalog
Origini Google Cloud supportate Tutte le origini come descritto nella sezione Origini Google Cloud supportate di questo documento. Tutte le origini descritte in Voci e gruppi di voci.
Importazione origini personalizzate

Importazione in voci personalizzate con una struttura regolata, definita da tipi di voci.

Le voci personalizzate e i gruppi di voci di Data Catalog vengono resi disponibili in Dataplex Catalog nel tipo di voce generic.

Importazione in voci personalizzate generiche.
Arricchimento dei metadati Il contesto dei metadati per le voci viene acquisito utilizzando gli aspetti e i tipi di aspetto. Il contesto dei metadati per le voci viene acquisito utilizzando i tag e i modelli di tag.
Ricerca La ricerca viene eseguita su:
  • Tutte le origini Google Cloud descritte in Origini Google Cloud supportate
  • Voci personalizzate create in Dataplex Catalog
  • Aspetti creati in Dataplex Catalog
  • Voci personalizzate che vengono create in Data Catalog e inserite in Dataplex Catalog

I risultati della ricerca includono solo le risorse che appartengono allo stesso perimetro VPC-SC del progetto in cui viene eseguita la ricerca. Quando utilizzi la console Google Cloud, questo è il progetto selezionato nella console.

La ricerca viene eseguita su:
  • Tutte le origini Google Cloud descritte in Voci e gruppi di voci
  • Voci personalizzate create in Data Catalog
  • Tag creati in Data Catalog

La tabella seguente descrive in che modo le risorse Dataplex Catalog corrispondono alle risorse Data Catalog:

Mappatura tra risorse Dataplex Catalog e Data Catalog
Risorsa Dataplex Catalog Risorsa Data Catalog Descrizione
Tipo di aspetto (global) Modello di tag pubblico I modelli di tag sono risorse di regione. Tuttavia, puoi utilizzarle per creare tag in più regioni. I modelli di tag corrispondono ai tipi di aspetto global in Dataplex Catalog.
Aspetto facoltativo Tag pubblico I tag pubblici in Data Catalog corrispondono ad aspetti facoltativi in Dataplex Catalog.
Gruppo di voci Gruppo di voci Per le origini Google Cloud, i gruppi di voci di sistema come @bigquery vengono stabiliti per progetto in Dataplex Catalog.
Aspetti obbligatori per le voci personalizzate Voce personalizzata

Data Catalog e Dataplex Catalog condividono concetti simili per le voci personalizzate.

Le proprietà delle voci standard sono modellate come aspetti obbligatori in Dataplex Catalog.

Aspetti obbligatori delle voci di sistema Voce di sistema (Google Cloud) I metadati che descrivono le entità integrate, come Schema per le tabelle BigQuery, vengono acquisiti negli aspetti obbligatori dei tipi di aspetto definiti dal sistema.

Per ulteriori informazioni sulle funzionalità disponibili in Data Catalog e non supportate in Dataplex Catalog, consulta la sezione Funzionalità non supportate in Dataplex Catalog in questo documento.

Origini Google Cloud supportate

I metadati dalle seguenti origini Google Cloud vengono importati automaticamente in Dataplex Catalog:

  • Piattaforme di scambio e schede Analytics Hub
  • Set di dati, tabelle, modelli, routine, connessioni e set di dati collegati di BigQuery
  • Istanze, cluster e tabelle Bigtable (inclusi i dettagli sulle famiglie di colonne)
  • Istanze, database, schemi, tabelle e viste di Cloud SQL
  • Servizi, database e tabelle Dataproc Metastore
  • argomenti Pub/Sub
  • Istanze, database, tabelle e viste Spanner
  • Modelli Vertex AI, set di dati

Vincoli di località e progetto

Le risorse Dataplex Catalog sono ospitate in vari progetti e località. Si applicano le seguenti limitazioni:

  • Località:

    • La posizione di una voce deve corrispondere a quella del tipo di voce oppure il tipo di voce deve essere global.
    • Un aspetto aggiunto a una voce deve essere basato su un tipo di aspetto archiviato nella stessa località della voce, oppure il tipo di aspetto deve essere global.
    • Un tipo di voce deve essere composto da tipi di aspetto archiviati nella stessa località del tipo di voce.
  • Progetto:

    • Se un tipo di voce fa riferimento a tipi di aspetto personalizzati, questi devono trovarsi nella stessa località e nello stesso progetto del tipo di voce.

Funzionalità non supportate in Dataplex Catalog

Le seguenti funzionalità disponibili in Data Catalog non sono supportate in Dataplex Catalog:

  • La nozione di aspetti privati e tipi di aspetto non è supportata in Dataplex Catalog. L'accesso agli aspetti è regolato dalle autorizzazioni associate alla voce che li contiene. Per saperne di più, consulta Ruoli IAM di Dataplex.
  • La ricerca di tag di criteri non è supportata nella ricerca in Dataplex Catalog; di conseguenza, i predicati policytag e policytagid non funzionano nella ricerca in Dataplex Catalog.
  • Per le voci personalizzate di Data Catalog inserite in Dataplex Catalog, le autorizzazioni IAM esistenti per i metadati attuali non vengono propagate automaticamente nei metadati copiati. Devi configurare esplicitamente le autorizzazioni IAM per i metadati copiati prima di utilizzarli.
  • L'invio dei risultati del job Sensitive Data Protection a Dataplex Catalog non è supportato.
  • Non puoi elencare i tipi di voce e i tipi di aspetto nei progetti utilizzando l'API. Puoi limitare la richiesta di elenco a un solo progetto.
  • Non puoi collegare i termini del glossario aziendale alle colonne delle voci Dataplex.
  • Non puoi modificare l'elenco dei tipi di aspetto obbligatori in un tipo di voce dopo aver creato il tipo di voce.

Prezzi

Dataplex utilizza lo SKU di archiviazione dei metadati per addebitare l'archiviazione dei metadati. Per ulteriori informazioni, consulta i prezzi di Dataplex.

Non sono previsti costi per l'utilizzo di quanto segue:

  • Creazione e gestione delle risorse Dataplex Catalog
  • Cerca chiamate API per Dataplex Catalog
  • Le query di ricerca eseguite nella pagina Dataplex Catalog nella console Google Cloud

Passaggi successivi