Introduzione al framework di risoluzione delle entità BigQuery

Questo documento descrive l'architettura del framework di risoluzione delle entità BigQuery. La risoluzione delle entità è la capacità di abbinare i record di dati condivisi in cui non esiste alcun identificatore comune o di aumentare i dati condivisi utilizzando un servizio di identità di un partner Google Cloud.

Questo documento è destinato agli utenti finali che si occupano di risoluzione delle entità (di seguito utenti finali) e ai provider di identità. Per i dettagli sull'implementazione, consulta Configurare e utilizzare la risoluzione delle entità in BigQuery.

Puoi utilizzare la risoluzione delle entità BigQuery per tutti i dati preparati prima di fornire dati in una data clean room. La risoluzione delle entità è disponibile sia con il modello di prezzo on demand sia con quello della capacità e in tutte le versioni di BigQuery.

Vantaggi

In qualità di utente finale, puoi trarre vantaggio dalla risoluzione delle entità nei seguenti modi:

  • Puoi risolvere le entità senza richiedere tariffe per il trasferimento di dati perché un abbonato o un partner Google Cloud associa i tuoi dati alla propria tabella di identità e scrive i risultati delle corrispondenze in un set di dati del tuo progetto.
  • Non è necessario gestire i job ETL (Extract, Transform, Load).

In qualità di provider di identità, puoi trarre vantaggio dalla risoluzione delle entità nei seguenti modi:

  • Puoi offrire la risoluzione delle entità come offerta SaaS (Software as a Service) gestito su Google Cloud Marketplace.
  • Puoi utilizzare i tuoi grafici di identità di proprietà e la logica di corrispondenza senza comunicarli agli utenti.

Architettura

BigQuery implementa la risoluzione delle entità utilizzando chiamate di funzione remote che attivano i processi di risoluzione delle entità nell'ambiente di un provider di identità. Non è necessario copiare o spostare i dati durante questa procedura. Il diagramma e la spiegazione seguenti descrivono il flusso di lavoro per la risoluzione delle entità:

Diagramma che mostra due sezioni principali: un progetto per l'utente finale e un progetto
di provider di identità.

  1. L'utente finale concede all'account di servizio del provider di identità l'accesso in lettura al set di dati di input e l'accesso in scrittura al set di dati di output.
  2. L'utente chiama la funzione remota che associa i dati di input ai dati del grafico di identità del provider. I parametri corrispondenti vengono passati al provider con la funzione remota.
  3. L'account di servizio del provider legge il set di dati di input e lo elabora.
  4. L'account di servizio del provider scrive i risultati della risoluzione delle entità nel set di dati di output dell'utente.

Le seguenti sezioni descrivono i componenti degli utenti finali e i progetti del provider.

Componenti dell'utente finale

I componenti degli utenti finali includono:

  • Chiamata di funzione remota: una chiamata che esegue una procedura definita e implementata dal provider di identità. Questa chiamata avvia il processo di risoluzione dell'entità.
  • Set di dati di input: il set di dati di origine contenente i dati da abbinare. Facoltativamente, il set di dati può contenere una tabella di metadati con parametri aggiuntivi. I provider specificano i requisiti di schema per i set di dati di input.
  • Set di dati di output: il set di dati di destinazione in cui il provider archivia i risultati corrispondenti come tabella di output. Facoltativamente, il provider può scrivere in questo set di dati una tabella dello stato del job contenente i dettagli del job di risoluzione delle entità. Il set di dati di output può essere uguale al set di dati di input.

Componenti del provider di identità

I componenti del provider di identità includono quanto segue:

  • Piano di controllo: contiene una funzione remota di BigQuery che orchestra il processo di corrispondenza. Questa funzione può essere implementata come un job Cloud Run o una funzione Cloud Functions. Il piano di controllo può anche contenere altri servizi, come l'autenticazione e l'autorizzazione.
  • Piano dati: contiene il set di dati del grafico di identità e la procedura archiviata che implementa la logica di corrispondenza del provider. La stored procedure può essere implementata come stored procedure SQL o stored procedure Apache Spark. Il set di dati del grafico delle identità contiene le tabelle con cui vengono confrontati i dati dell'utente finale.

Passaggi successivi