Introduzione al framework di risoluzione delle entità BigQuery
Questo documento descrive l'architettura del framework di risoluzione delle entità BigQuery. La risoluzione delle entità è la capacità di abbinare i record di dati condivisi in cui non esiste alcun identificatore comune o di aumentare i dati condivisi utilizzando un servizio di identità di un partner Google Cloud.
Questo documento è destinato agli utenti finali che si occupano di risoluzione delle entità (di seguito utenti finali) e ai provider di identità. Per i dettagli sull'implementazione, consulta Configurare e utilizzare la risoluzione delle entità in BigQuery.
Puoi utilizzare la risoluzione delle entità BigQuery per tutti i dati preparati prima di fornire dati in una data clean room. La risoluzione delle entità è disponibile sia con il modello di prezzo on demand sia con quello della capacità e in tutte le versioni di BigQuery.
Vantaggi
In qualità di utente finale, puoi trarre vantaggio dalla risoluzione delle entità nei seguenti modi:
- Puoi risolvere le entità senza richiedere tariffe per il trasferimento di dati perché un abbonato o un partner Google Cloud associa i tuoi dati alla propria tabella di identità e scrive i risultati delle corrispondenze in un set di dati del tuo progetto.
- Non è necessario gestire i job ETL (Extract, Transform, Load).
In qualità di provider di identità, puoi trarre vantaggio dalla risoluzione delle entità nei seguenti modi:
- Puoi offrire la risoluzione delle entità come offerta SaaS (Software as a Service) gestito su Google Cloud Marketplace.
- Puoi utilizzare i tuoi grafici di identità di proprietà e la logica di corrispondenza senza comunicarli agli utenti.
Architettura
BigQuery implementa la risoluzione delle entità utilizzando chiamate di funzione remote che attivano i processi di risoluzione delle entità nell'ambiente di un provider di identità. Non è necessario copiare o spostare i dati durante questa procedura. Il diagramma e la spiegazione seguenti descrivono il flusso di lavoro per la risoluzione delle entità:
- L'utente finale concede all'account di servizio del provider di identità l'accesso in lettura al set di dati di input e l'accesso in scrittura al set di dati di output.
- L'utente chiama la funzione remota che associa i dati di input ai dati del grafico di identità del provider. I parametri corrispondenti vengono passati al provider con la funzione remota.
- L'account di servizio del provider legge il set di dati di input e lo elabora.
- L'account di servizio del provider scrive i risultati della risoluzione delle entità nel set di dati di output dell'utente.
Le seguenti sezioni descrivono i componenti degli utenti finali e i progetti del provider.
Componenti dell'utente finale
I componenti degli utenti finali includono:
- Chiamata di funzione remota: una chiamata che esegue una procedura definita e implementata dal provider di identità. Questa chiamata avvia il processo di risoluzione dell'entità.
- Set di dati di input: il set di dati di origine contenente i dati da abbinare. Facoltativamente, il set di dati può contenere una tabella di metadati con parametri aggiuntivi. I provider specificano i requisiti di schema per i set di dati di input.
- Set di dati di output: il set di dati di destinazione in cui il provider archivia i risultati corrispondenti come tabella di output. Facoltativamente, il provider può scrivere in questo set di dati una tabella dello stato del job contenente i dettagli del job di risoluzione delle entità. Il set di dati di output può essere uguale al set di dati di input.
Componenti del provider di identità
I componenti del provider di identità includono quanto segue:
- Piano di controllo: contiene una funzione remota di BigQuery che orchestra il processo di corrispondenza. Questa funzione può essere implementata come un job Cloud Run o una funzione Cloud Functions. Il piano di controllo può anche contenere altri servizi, come l'autenticazione e l'autorizzazione.
- Piano dati: contiene il set di dati del grafico di identità e la procedura archiviata che implementa la logica di corrispondenza del provider. La stored procedure può essere implementata come stored procedure SQL o stored procedure Apache Spark. Il set di dati del grafico delle identità contiene le tabelle con cui vengono confrontati i dati dell'utente finale.
Passaggi successivi
- Per scoprire come utilizzare la risoluzione delle entità nel progetto, consulta Configurare e utilizzare la risoluzione delle entità in BigQuery.