Introduzione al framework di risoluzione delle entità BigQuery

Questo documento descrive l'architettura del framework di risoluzione delle entità BigQuery. La risoluzione dell'entità è la capacità di far corrispondere i record dati condivisi in assenza di identificatori comuni o per aumentare i dati condivisi utilizzando di identità da un Partner Google Cloud.

Il presente documento è destinato agli utenti finali che si occupano di risoluzione di entità (di seguito indicati come utenti finali) e provider di identità. Per i dettagli sull'implementazione, consulta Configurare e utilizzare la risoluzione delle entità in BigQuery.

Puoi utilizzare la risoluzione delle entità BigQuery per qualsiasi dato preparati prima di fornire dati in un data clean room. La risoluzione delle entità è disponibile sia con il prezzo on demand sia con quello della capacità e in tutte le versioni di BigQuery.

Vantaggi

In qualità di utente finale, puoi trarre vantaggio dalla risoluzione delle entità nei seguenti modi:

  • Puoi risolvere le entità in situ senza invocare le tariffe di trasferimento dei dati perché un abbonato o un partner Google Cloud associa i tuoi dati alla propria tabella di identità e scrive i risultati della corrispondenza in un set di dati del tuo progetto.
  • Non è necessario gestire i job di estrazione, trasformazione e caricamento (ETL).

In qualità di provider di identità, puoi trarre vantaggio dalla risoluzione delle entità in nei seguenti modi:

  • Puoi offrire la risoluzione delle entità come offerta Software as a Service (SaaS) gestita su Google Cloud Marketplace.
  • Puoi utilizzare i grafici di identità di proprietà e la logica di corrispondenza senza rivelandoli agli utenti.

Architettura

BigQuery implementa la risoluzione delle entità utilizzando la funzione remota che attivano i processi di risoluzione delle entità nella console completamente gestito di Google Cloud. Non è necessario copiare o spostare i dati durante questa procedura. Il diagramma e la spiegazione seguenti descrivono il flusso di lavoro per l'entità risoluzione:

Un diagramma che mostra due sezioni principali: un progetto per gli utenti finali e un progetto per i fornitori di servizi di identità.

  1. L'utente finale concede l'accesso in lettura all'account di servizio del provider di identità al set di dati di input e l'accesso in scrittura al set di dati di output.
  2. L'utente chiama la funzione remota che associa i dati di input ai dati del grafo di identità del fornitore. I parametri corrispondenti vengono passati al fornitore con la funzione remota.
  3. L'account di servizio del fornitore legge il set di dati di input ed esegue l'elaborazione.
  4. L'account di servizio del fornitore scrive i risultati della risoluzione delle entità nel set di dati di output dell'utente.

Le seguenti sezioni descrivono i componenti degli utenti finali e i progetti del provider.

Componenti per gli utenti finali

I componenti per gli utenti finali includono:

  • Chiamata di funzione remota: una chiamata che esegue una procedura definita e implementata dal provider di identità. Questa chiamata avvia la procedura di risoluzione delle entità.
  • Set di dati di input: il set di dati di origine contenente i dati da utilizzare corrispondente. Facoltativamente, il set di dati può contenere una tabella di metadati con parametri aggiuntivi. I provider specificano i requisiti di schema per l'input e dei set di dati.
  • Set di dati di output: il set di dati di destinazione in cui il provider archivia i risultati corrispondenti come tabella di output. Facoltativamente, il provider può scrivere una tabella di stato dei job contenente i dettagli del job di risoluzione delle entità del set di dati. Il set di dati di output può essere uguale a quello di input.

Componenti del provider di identità

I componenti del provider di identità includono quanto segue:

  • Piano di controllo: contiene una funzione remota BigQuery che orchestra il processo di corrispondenza. Questa funzione può essere implementata come un job Cloud Run o un Funzione Cloud Run. La di controllo può anche contenere altri servizi, come l'autenticazione autorizzazione.
  • Piano dati: contiene il set di dati del grafico delle identità e le che implementa la logica di corrispondenza dei provider. La stored procedure può essere implementata come stored procedure SQL o come stored procedure Apache Spark. Il set di dati del grafo delle identità contiene le tabelle con cui vengono abbinati i dati dell'utente finale.

Passaggi successivi