Sincronizza Dataproc Metastore con Data Catalog

Questo documento mostra come sincronizzare i metadati Dataproc Metastore con Data Catalog.

Dopo aver sincronizzato i due servizi insieme, puoi utilizzare Data Catalog per gestire i metadati di Dataproc Metastore. Ad esempio, utilizzando Data Catalog, puoi taggare e cercare specifici Dataproc Metastore di risorse, come database e tabelle.

Che cos'è Data Catalog

Data Catalog è una soluzione di gestione dei metadati scalabile e completamente gestita completamente gestito di Google Cloud. Fornisce meccanismi di visualizzazione e tagging unificati per le e i metadati aziendali.

Per saperne di più, consulta la seguente funzionalità di Data Catalog guide:

Prima di iniziare

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per sincronizzare i metadati Dataproc Metastore con Data Catalog, chiedi all'amministratore di concederti Visualizza le voci di Dataproc Metastore sincronizzate nel ruolo IAM di Data Catalog (roles/metastore.metadataViewer) sul tuo progetto, in base al principio del privilegio minimo. Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Questo ruolo predefinito contiene le autorizzazioni necessarie per sincronizzare i metadati Dataproc Metastore con Data Catalog. Per vedere le autorizzazioni esatte obbligatorie, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per sincronizzare i metadati Dataproc Metastore con Data Catalog sono necessarie le seguenti autorizzazioni:

  • Per ottenere i database Dataproc Metastore: metastore.databases.get
  • Per elencare i database Dataproc Metastore: metastore.databases.list
  • Per ottenere le tabelle Dataproc Metastore: metastore.tables.get
  • Per elencare le tabelle Dataproc Metastore: metastore.tables.list

Potresti anche riuscire a ottenere queste autorizzazioni con ruoli personalizzati e altri ruoli predefiniti.

Per ulteriori informazioni su ruoli e autorizzazioni specifici di Dataproc Metastore, consulta Gestire l'accesso con IAM.

Come funzionano le autorizzazioni tra i servizi

Data Catalog rispetta le autorizzazioni a livello di Dataproc Metastore. Per i metadati sincronizzati da Dataproc Metastore a Data Catalog, le autorizzazioni IAM specificate Dataproc Metastore si applica ai metadati in Data Catalog .

Data Catalog controlla le autorizzazioni per ogni metastore e la tabella al momento dell'accesso, in modo che solo gli utenti con accesso Il servizio Dataproc Metastore è in grado di vedere il servizio sincronizzato risorse come voci in Data Catalog.

Come funziona la sincronizzazione di Data Catalog con Dataproc Metastore

Puoi abilitare Dataproc Metastore in Data Catalog la sincronizzazione quando crei o aggiorni un servizio Dataproc Metastore utilizzando la console Google Cloud. Puoi disattivare la sincronizzazione nello stesso modo.

Dopo aver abilitato la sincronizzazione di Data Catalog, i metadati di database e tabelle sincronizzati automaticamente da Dataproc Metastore a Data Catalog.

Data Catalog sincronizza i seguenti metadati:

  • Istanze
  • Database, inclusi nome e descrizione.
  • Tabelle, inclusi nome, descrizione e schema (colonne con descrizioni).

La tabella seguente mostra la mappatura delle risorse tra Dataproc Metastore e Data Catalog:

Risorsa Dataproc Metastore Risorsa Data Catalog
Istanza Gruppo di voci
Voce
Database Voce
Tabella Voce
Colonna Schema

Considerazioni

  • Possono essere necessarie fino a 6 ore prima che Dataproc Metastore i metadati sono completamente sincronizzati con Data Catalog. Dopo l'impostazione iniziale completata la sincronizzazione, le modifiche incrementali vengono sincronizzate on demand (come tabelle aggiornamenti del database). Se una sincronizzazione on demand non riesce, la sincronizzazione viene inclusa in un batch ogni 6 ore.

  • Se sospetti che ci sia un problema con la sincronizzazione, controlla i metadati pubblicazione dei log in Cloud Logging di Dataproc Metastore con il filtro textPayload=~".*Publish.*". Per saperne di più sull'accesso ai log, consulta Accedere ai log dei job in Logging.

  • Se disabiliti la sincronizzazione di Data Catalog, la sincronizzazione dei metadati viene interrotta da Dataproc Metastore a Data Catalog. Tuttavia, i metadati già sincronizzati rimangono in Data Catalog.

  • Se elimini un'istanza Dataproc Metastore, vengono rimosse anche le voci corrispondenti di istanza, database e tabella da Data Catalog.

  • Metadati Dataproc Metastore archiviati in Data Catalog sia conforme ai periodi di conservazione standard di Google Cloud.

  • Non sono previsti costi aggiuntivi per l'attivazione della sincronizzazione di Data Catalog per Dataproc Metastore.

Crea un servizio con la sincronizzazione di Data Catalog abilitata

La sincronizzazione di Data Catalog è disattivata per impostazione predefinita.

Per attivare la sincronizzazione di Data Catalog per un nuovo servizio, utilizza quanto segue istruzioni.

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore:

    Vai a Dataproc Metastore

  2. Nella parte superiore della pagina Dataproc Metastore, fai clic su Crea.

    Viene visualizzata la pagina Crea servizio.

  3. Seleziona la versione di Dataproc Metastore che vuoi utilizzare.

  4. In Integrazione dei metadati, fai clic su Sincronizzazione di Data Catalog.

  5. Per le restanti opzioni di configurazione del servizio, utilizza i valori predefiniti forniti. In alternativa, configura il servizio in base alle esigenze.

  6. Fai clic su Invia.

Abilita o disabilita la sincronizzazione di Data Catalog per un servizio esistente

Per attivare o disattivare la sincronizzazione di Data Catalog per un servizio esistente, segui le istruzioni riportate di seguito.

Console

  1. Nella console Google Cloud, apri la pagina Dataproc Metastore:

    Vai a Dataproc Metastore

  2. Nella pagina Dataproc Metastore, fai clic sul servizio che vuoi aggiornare.

    Si apre la pagina Dettagli del servizio per quel servizio.

  3. Nella scheda Configurazione, fai clic su Modifica.

    Viene visualizzata la pagina Modifica servizio.

  4. In Integrazione dei metadati, attiva/disattiva Sincronizzazione di Data Catalog. on o off.

  5. Fai clic su Invia.

Cerca con Data Catalog

Puoi cercare i metadati di Dataproc Metastore sincronizzati utilizzando Data Catalog (Catalogo dati).

Anche se non sono disponibili opzioni di ricerca personalizzata per Dataproc Metastore, esistono diversi modi per cercare diversi Dataproc Metastore di risorse, tra cui:

  • Istanza Dataproc Metastore
    • Per nome visualizzato
    • Le funzioni standard di Data Catalog, ad esempio utilizzando i tag.
  • Database
    • Per nome visualizzato
    • Per descrizione
    • Da istanza Dataproc Metastore
    • Le funzioni standard di Data Catalog, ad esempio utilizzando i tag.
  • Tabella
    • Per nome visualizzato
    • Per descrizione
    • Per nome colonna
    • Per descrizione colonna
    • Per database
    • Per istanza Dataproc Metastore
    • Le funzioni standard di Data Catalog, ad esempio utilizzando i tag.

Passaggi successivi