Informazioni sulla federazione dei metadati

La federazione dei metadati è un servizio che ti consente di accedere a più origini di metadati da un singolo endpoint.

Per configurare la federazione, crea un servizio di federazione e poi configura le origini dei metadati. Successivamente, il servizio espone un singolo endpoint gRPC che puoi utilizzare per accedere a tutti i tuoi metadati.

Ad esempio, utilizzando la federazione, puoi creare un cluster Dataproc che espone più servizi Dataproc Metastore tramite un singolo endpoint. In seguito, puoi eseguire job di big data tramite motori di software open source (OSS), come Spark o Hive, per accedere ai metadati su più metastore.

Come funziona la federazione

I carichi di lavoro di big data OSS eseguiti su Spark o Hive inviano richieste all'API Hive Metastore per recuperare i metadati in fase di esecuzione.

  • L'interfaccia Hive Metastore supporta sia i metodi di lettura che quelli di scrittura. Il servizio di federazione espone una versione gRPC dell'interfaccia Hive Metastore.
  • In fase di esecuzione, quando il servizio di federazione riceve una richiesta, controlla l'ordinamento delle origini per recuperare i metadati appropriati.

Origini metadati

Quando crei un servizio di federazione, devi aggiungere un'origine di metadati. Puoi utilizzare le seguenti origini come metastore di backend:

  • Un'istanza Dataproc Metastore.
  • Un progetto contenente uno o più set di dati BigQuery.
  • Un lake Dataplex (anteprima).

Restrizioni relative alle fonti

La sezione seguente elenca le limitazioni da rispettare quando si utilizzano varie origini di metadati.

Tutte le origini

Le seguenti limitazioni si applicano a tutte le origini di metadati:

  • Un servizio di federazione non contiene i propri dati. Il servizio di federazione, invece, fornisce solo i metadati di una delle sue origini.
  • Un servizio di federazione non può essere una fonte di metadati in un altro servizio di federazione.

Dataproc Metastore

Se utilizzi un Dataproc Metastore come origine, si applicano le seguenti limitazioni:

  • I servizi di federazione sono disponibili solo tramite endpoint gRPC. Per utilizzare un Dataproc Metastore con la federazione, crea il metastore con un endpoint gRPC.
  • I servizi di federazione possono essere collegati a servizi Dataproc Metastore di singole regioni in qualsiasi regione. I servizi di federazione non supportano i servizi Dataproc Metastore multiregione.

BigQuery

Se utilizzi un progetto contenente set di dati BigQuery come fonte, devi soddisfare le seguenti condizioni:

  • Concedi i ruoli IAM corretti per accedere al progetto contenente i set di dati BigQuery.
  • Aggiungi almeno un servizio Dataproc Metastore come origine, insieme ai tuoi set di dati BigQuery.

Dataplex Lakes

  • Concedi un ruolo IAM che contenga l'autorizzazione dataplex.lakes.get.
  • Aggiungi almeno un servizio Dataproc Metastore come origine, insieme al tuo lake Dataplex.

Ordinamento delle origini

Il servizio di federazione elabora le richieste di metadati in un ordine di priorità. Questo concetto è noto come ordinamento delle origini. In fase di esecuzione, quando il servizio di federazione riceve una richiesta, controlla l'ordinamento delle origini e completa una delle seguenti azioni:

  • Se la richiesta contiene il nome di un database. La richiesta viene instradata al metastore di backend che contiene il nome del database. Se più di un metastore contiene lo stesso nome del database, la richiesta viene indirizzata al metastore con il ranking più basso.
  • Se la richiesta crea o elimina un database. La richiesta viene indirizzata al metastore con il ranking più basso.
  • Se la richiesta non contiene il nome di un database e non crea o elimina un database. La richiesta viene indirizzata all'istanza Dataproc Metastore con il ranking più basso. Alcuni esempi di richieste Hive Metastore che non specificano un database sono set_ugi e create_database.
  • Se nessuno dei metastore contiene un database. Il motore OSS risponde con l'equivalente di un errore di mancata corrispondenza.

Passaggi successivi