Introduzione al framework di risoluzione delle entità di BigQuery

Questo documento descrive l'architettura del framework di risoluzione delle entità BigQuery. La risoluzione delle entità è la capacità di abbinare i record tra i dati condivisi in cui non esiste un identificatore comune o di aumentare i dati condivisi utilizzando un servizio di gestione delle identità di un partner Google Cloud.

Questo documento è rivolto agli utenti finali della risoluzione delle entità (di seguito denominati utenti finali) e ai fornitori di servizi di identità. Per i dettagli sull'implementazione, consulta Configurare e utilizzare la risoluzione delle entità in BigQuery.

Puoi utilizzare la risoluzione delle entità BigQuery per qualsiasi dato preparato prima di aggiungerlo a una data clean room. La risoluzione delle entità è disponibile sia nei modelli di prezzi on demand sia in quelli basati sulla capacità, nonché in tutte le versioni di BigQuery.

Vantaggi

In qualità di utente finale, puoi trarre vantaggio dalla risoluzione delle entità nei seguenti modi:

  • Puoi risolvere le entità in situ senza invocare le tariffe di trasferimento dei dati perché un abbonato o un partner Google Cloud associa i tuoi dati alla propria tabella di identità e scrive i risultati della corrispondenza in un set di dati del tuo progetto.
  • Non è necessario gestire i job di estrazione, trasformazione e caricamento (ETL).

In qualità di provider di identità, puoi trarre vantaggio dalla risoluzione delle entità nei seguenti modi:

  • Puoi offrire la risoluzione delle entità come offerta Software as a Service (SaaS) gestita su Google Cloud Marketplace.
  • Puoi utilizzare i tuoi grafici di identità proprietari e la logica di corrispondenza senza rivelarli agli utenti.

Architettura

BigQuery implementa la risoluzione delle entità utilizzando chiamate di funzioni remote che attivano i processi di risoluzione delle entità nell'ambiente di un provider di identità. Non è necessario copiare o spostare i dati durante questa procedura. Il seguente diagramma e la relativa spiegazione descrivono il flusso di lavoro per la risoluzione delle entità:

Un diagramma che mostra due sezioni principali: un progetto per utenti finali e un progetto per fornitori di servizi di identità.

  1. L'utente finale concede all'account di servizio del provider di identità l'accesso in lettura al set di dati di input e l'accesso in scrittura al set di dati di output.
  2. L'utente chiama la funzione remota che associa i dati di input ai dati del grafo di identità del fornitore. I parametri di corrispondenza vengono passati al fornitore con la funzione remota.
  3. L'account di servizio del fornitore legge il set di dati di input e lo elabora.
  4. L'account di servizio del fornitore scrive i risultati della risoluzione delle entità nel set di dati di output dell'utente.

Le sezioni seguenti descrivono i componenti per gli utenti finali e i progetti del provider.

Componenti per gli utenti finali

I componenti per gli utenti finali includono:

  • Chiamata di funzione remota: una chiamata che esegue una procedura definita e implementata dal provider di identità. Questa chiamata avvia la procedura di risoluzione delle entità.
  • Set di dati di input: il set di dati di origine contenente i dati da abbinare. Se vuoi, il set di dati può contenere una tabella di metadati con parametri aggiuntivi. I fornitori specificano i requisiti dello schema per i set di dati di input.
  • Set di dati di output: il set di dati di destinazione in cui il fornitore memorizza i risultati corrispondenti come tabella di output. Facoltativamente, il fornitore può scrivere in questo set di dati una tabella dello stato del job che contiene i dettagli del job di risoluzione delle entità. Il set di dati di output può essere uguale a quello di input.

Componenti del provider di identità

I componenti del provider di identità includono:

  • Piano di controllo: contiene una funzione remota BigQuery che orchestra il processo di corrispondenza. Questa funzione può essere implementata come job Cloud Run o come funzione Cloud Run. Il piano di controllo può contenere anche altri servizi, come l'autenticazione e l'autorizzazione.
  • Piattaforma dati: contiene il set di dati del grafo delle identità e la procedura memorizzata che implementa la logica di corrispondenza dei provider. La stored procedure può essere implementata come stored procedure SQL o come stored procedure Apache Spark. Il set di dati del grafo delle identità contiene le tabelle con cui vengono abbinati i dati dell'utente finale.

Passaggi successivi