Sincronizzazione da Dataproc Metastore a Data Catalog

Puoi abilitare il servizio Dataproc Metastore alla sincronizzazione di Data Catalog per usufruire della scoperta e della gestione dei metadati. Una volta attivati, i metadati del database e della tabella vengono sincronizzati automaticamente da Dataproc Metastore a Data Catalog.

Data Catalog consente di taggare e cercare risorse specifiche del servizio, ad esempio database e tabelle.

Che cos'è Data Catalog

Data Catalog è un servizio di gestione di metadati scalabile e completamente gestito nella famiglia di prodotti di analisi dei dati di Google Cloud. Fornisce meccanismi di visualizzazione e codifica unificati per i metadati tecnici e aziendali.

Per ulteriori informazioni, consulta le seguenti guide alle funzionalità di Data Catalog:

Autorizzazioni

Data Catalog rispetta le autorizzazioni a livello di Dataproc Metastore. Per i metadati sincronizzati da Dataproc Metastore a Data Catalog, le autorizzazioni IAM specificate in Dataproc Metastore si applicano anche ai metadati in Data Catalog.

Data Catalog controlla le autorizzazioni per ogni tabella/database metastore al momento dell'accesso in modo che solo gli utenti con accesso al servizio Metastore Dataproc siano in grado di visualizzare le risorse di servizio sincronizzate come voci in Data Catalog.

Devi richiedere roles/metastore.metadataViewer per visualizzare le voci sincronizzate di Dataproc Metastore in Data Catalog. roles/metastore.Admin e roles/metastore.Editor non supportano i metadati e le autorizzazioni delle tabelle del metastore.

Abilita la sincronizzazione di Data Catalog

Dopo aver abilitato la sincronizzazione di Data Catalog, Data Catalog esegue sincronizzazioni complete e attive del servizio Dataproc Metastore.

Data Catalog sincronizza i seguenti metadati:

  • Istanze
  • Database, inclusi nome e descrizione
  • Tabelle, inclusi nome, descrizione e schema (colonne con descrizioni)
  • Proprietà database
  • Proprietà tabella

La tabella seguente mostra la mappatura delle risorse tra Dataproc Metastore e Data Catalog:

Risorsa Dataproc Metastore Risorsa di Data Catalog
Istanza Gruppo di voci
Voce
Database Entry
Tabella Entry
Colonna Schema

Puoi abilitare il servizio Dataproc Metastore alla sincronizzazione di Data Catalog quando crei o aggiorni un servizio Dataproc Metastore utilizzando Google Cloud Console. Puoi disattivare la sincronizzazione allo stesso modo.

Creazione di un servizio con la sincronizzazione di Data Catalog abilitata

La sincronizzazione di Data Catalog è disattivata per impostazione predefinita.

Per attivare la sincronizzazione di Data Catalog per un nuovo servizio:

console

  1. In Google Cloud Console, apri la pagina Dataproc Metastore:

    Apri Dataproc Metastore in Google Cloud Console

  2. Nella parte superiore della pagina Metastore Dataproc, fai clic sul pulsante Crea. Viene visualizzata la pagina Crea servizio.

  3. Configura il servizio in base alle tue esigenze.

  4. In Integrazione metadati, attiva la sincronizzazione di Data Catalog per sincronizzare il servizio Dataproc Metastore con Data Catalog.

  5. Fai clic su Invia.

Attivazione o disattivazione della sincronizzazione di Data Catalog per un servizio esistente

Per attivare o disattivare la sincronizzazione di Data Catalog per un servizio esistente:

console

  1. In Google Cloud Console, apri la pagina Dataproc Metastore:

    Apri Dataproc Metastore in Google Cloud Console

  2. Nella pagina Dataproc Metastore, fai clic sul nome del servizio che vuoi aggiornare. Si apre la pagina Dettagli servizio di quel servizio.

  3. Nella scheda Configurazione, fai clic sul pulsante Modifica. Viene visualizzata la pagina Modifica servizio.

  4. Nella sezione Integrazione di metadati, fai clic per attivare o disattivare Abilitasincronizzazione di Data Catalog.

  5. Fai clic sul pulsante Invia per aggiornare il servizio.

Ricerca con Data Catalog

Puoi cercare i metadati sincronizzati di Dataproc Metastore usando Data Catalog.

Anche se non esistono opzioni di ricerca personalizzate per Dataproc Metastore, puoi scegliere tra diverse modalità per cercare le diverse risorse di Dataproc Metastore:

  • Istanza Dataproc Metastore
    • Per nome visualizzato
    • Metodi standard di Data Catalog: per tag e così via.
  • Database
    • Per nome visualizzato
    • Per descrizione
    • Per istanza Dataproc Metastore
    • Metodi standard di Data Catalog: per tag e così via.
  • Tabella:
    • Per nome visualizzato
    • Per descrizione
    • Per nome colonna
    • Per descrizione colonna
    • Per database
    • Per istanza Dataproc Metastore
    • Metodi standard di Data Catalog: per tag e così via.

Domande frequenti

  • Attendi sei ore prima di controllare se il catalogo dati è completo e corretto.

  • Se sospetti che ci sia un problema con la sincronizzazione di Dataproc Metastore e Data Catalog, controlla i log di pubblicazione dei metadati in Cloud Logging di Cloud Dataproc con il filtro textPayload=~".*Publish.*". Per ulteriori informazioni sull'accesso ai log, consulta la pagina relativa all'accesso ai log dei job in Logging.

  • Se disabiliti la sincronizzazione di Data Catalog, i metadati non vengono più sincronizzati da Dataproc Metastore a Data Catalog. Tuttavia, i metadati già sincronizzati rimangono in Data Catalog.

  • Se elimini un'istanza Dataproc Metastore, anche le voci corrispondenti, dell'istanza, del database e della tabella vengono rimosse da Data Catalog.

  • Data Catalog è conforme ai periodi di conservazione standard di Google Cloud.

  • Non sono previsti costi aggiuntivi per l'abilitazione della sincronizzazione di Data Catalog per Dataproc Metastore.

Passaggi successivi