Sincronizza Dataproc Metastore con Data Catalog

Questo documento mostra come sincronizzare i metadati di Dataproc Metastore con Data Catalog.

Dopo aver sincronizzato i due servizi, puoi utilizzare Data Catalog per gestire i metadati di Dataproc Metastore. Ad esempio, utilizzando Data Catalog, puoi taggare e cercare risorse specifiche di Dataproc Metastore, come database e tabelle.

Che cos'è Data Catalog

Data Catalog è un servizio di gestione dei metadati completamente gestito e scalabile. Fornisce meccanismi di visualizzazione e tagging unificati per i metadati tecnici e aziendali.

Per ulteriori informazioni, consulta le seguenti guide alle funzionalità di Data Catalog:

Prima di iniziare

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per sincronizzare i metadati di Dataproc Metastore con Data Catalog, chiedi all'amministratore di concederti il ruolo IAM Visualizza le voci Dataproc Metastore sincronizzate in Data Catalog (roles/metastore.metadataViewer) per il tuo progetto, in base al principio del privilegio minimo. Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.

Questo ruolo predefinito contiene le autorizzazioni necessarie per sincronizzare i metadati di Dataproc Metastore con Data Catalog. Per visualizzare le autorizzazioni esatte necessarie, espandi la sezione Autorizzazioni richieste:

Autorizzazioni obbligatorie

Per sincronizzare i metadati di Dataproc Metastore con Data Catalog sono necessarie le seguenti autorizzazioni:

  • Per recuperare i database Dataproc Metastore: metastore.databases.get
  • Per elencare i database Dataproc Metastore: metastore.databases.list
  • Per recuperare le tabelle Dataproc Metastore: metastore.tables.get
  • Per elencare le tabelle Dataproc Metastore: metastore.tables.list

Potresti anche essere in grado di ottenere queste autorizzazioni con i ruoli personalizzati o altri ruoli predefiniti.

Per ulteriori informazioni su ruoli e autorizzazioni specifici di Dataproc Metastore, vedi Gestire l'accesso con IAM.

Come funzionano le autorizzazioni tra i servizi

Data Catalog rispetta le autorizzazioni a livello di Dataproc Metastore. Per i metadati sincronizzati da Dataproc Metastore a Data Catalog, le autorizzazioni IAM specificate in Dataproc Metastore si applicano anche ai metadati in Data Catalog.

Data Catalog controlla le autorizzazioni per ogni database e tabella di metastore al momento dell'accesso, in modo che solo gli utenti con accesso al servizio Dataproc Metastore possano visualizzare le risorse del servizio sincronizzate come voci in Data Catalog.

Come funziona la sincronizzazione di Data Catalog con Dataproc Metastore

Puoi abilitare la sincronizzazione di Dataproc Metastore per Data Catalog quando crei o aggiorni un servizio Dataproc Metastore utilizzando la console Google Cloud. Puoi disattivare la sincronizzazione nello stesso modo.

Dopo aver abilitato la sincronizzazione di Data Catalog, i metadati di database e tabelle vengono sincronizzati automaticamente da Dataproc Metastore a Data Catalog.

Data Catalog sincronizza i seguenti metadati:

  • istanze.
  • Database, inclusi nome e descrizione.
  • Tabelle, tra cui nome, descrizione e schema (colonne con descrizioni).

La seguente tabella mostra la mappatura delle risorse tra Dataproc Metastore e Data Catalog:

Risorsa Dataproc Metastore Risorsa Data Catalog
Istanza Gruppo di voci
Voce
Database Voce
Tabella Voce
Colonna Schema

Considerazioni

  • La sincronizzazione completa dei metadati di Dataproc Metastore con Data Catalog può richiedere fino a 6 ore. Al termine della sincronizzazione iniziale, le modifiche incrementali vengono sincronizzate on demand (ad esempio aggiornamenti della tabella o del database). Se una sincronizzazione on demand non va a buon fine, la sincronizzazione viene inclusa in una ripetizione batch ogni 6 ore.

  • Se sospetti che ci sia un problema con la sincronizzazione, controlla i log di pubblicazione dei metadati in Dataproc Metastore Cloud Logging con il filtro textPayload=~".*Publish.*". Per saperne di più sull'accesso ai log, consulta Accedere ai log dei job in Logging.

  • Se disabiliti la sincronizzazione di Data Catalog, la sincronizzazione dei metadati viene interrotta da Dataproc Metastore a Data Catalog. Tuttavia, i metadati già sincronizzati rimangono in Data Catalog.

  • Se elimini un'istanza di Dataproc Metastore, vengono rimosse anche le voci di istanza, database e tabella corrispondenti da Data Catalog.

  • I metadati Dataproc Metastore archiviati in Data Catalog rispettano i periodi di conservazione standard di Google Cloud.

  • Non sono previsti costi aggiuntivi per abilitare la sincronizzazione di Data Catalog per Dataproc Metastore.

Crea un servizio con la sincronizzazione di Data Catalog abilitata

La sincronizzazione di Data Catalog è disabilitata per impostazione predefinita.

Per attivare la sincronizzazione di Data Catalog per un nuovo servizio, utilizza le seguenti istruzioni.

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore:

    Vai a Dataproc Metastore

  2. Nella parte superiore della pagina Dataproc Metastore, fai clic su Crea.

    Viene visualizzata la pagina Crea servizio.

  3. Seleziona la versione di Dataproc Metastore che vuoi utilizzare.

  4. In Integrazione dei metadati, fai clic su Sincronizzazione di Data Catalog.

  5. Per le restanti opzioni di configurazione del servizio, utilizza i valori predefiniti. In alternativa, Configura il servizio in base alle esigenze.

  6. Fai clic su Invia.

Abilita o disabilita la sincronizzazione di Data Catalog per un servizio esistente

Per abilitare o disabilitare la sincronizzazione di Data Catalog per un servizio esistente, segui le istruzioni riportate di seguito.

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore:

    Vai a Dataproc Metastore

  2. Nella pagina Dataproc Metastore, fai clic sul servizio che vuoi aggiornare.

    Si apre la pagina Dettagli servizio di quel servizio.

  3. Nella scheda Configurazione, fai clic su Modifica.

    Viene visualizzata la pagina Modifica servizio.

  4. In Integrazione dei metadati, attiva o disattiva l'opzione Sincronizzazione di Data Catalog.

  5. Fai clic su Invia.

Cerca con Data Catalog

Puoi cercare metadati di Dataproc Metastore sincronizzati utilizzando Data Catalog.

Anche se non esistono opzioni di ricerca personalizzate per Dataproc Metastore, esistono diversi modi per cercare diverse risorse di Dataproc Metastore, tra cui:

  • Istanza Dataproc Metastore
    • Per nome visualizzato
    • Funzioni standard di Data Catalog, ad esempio utilizzando i tag.
  • Database
    • Per nome visualizzato
    • Per descrizione
    • Per istanza Dataproc Metastore
    • Funzioni standard di Data Catalog, ad esempio utilizzando i tag.
  • Tabella
    • Per nome visualizzato
    • Per descrizione
    • Per nome colonna
    • Per descrizione colonna
    • Per database
    • Per istanza Dataproc Metastore
    • Funzioni standard di Data Catalog, ad esempio utilizzando i tag.

Passaggi successivi