Introduzione al framework di risoluzione delle entità BigQuery

Questo documento descrive l'architettura dell'entità BigQuery di risoluzione dei problemi. La risoluzione dell'entità è la capacità di far corrispondere i record dati condivisi in assenza di identificatori comuni o per aumentare i dati condivisi utilizzando di identità da un Partner Google Cloud.

Il presente documento è destinato agli utenti finali che si occupano di risoluzione di entità (di seguito indicati come utenti finali) e provider di identità. Per i dettagli di implementazione, consulta Configura e utilizza la risoluzione delle entità BigQuery.

Puoi utilizzare la risoluzione delle entità BigQuery per qualsiasi dato preparati prima di fornire dati in un data clean room. La risoluzione delle entità è disponibile sia con il prezzo on demand sia con quello della capacità e in tutte le versioni di BigQuery.

Vantaggi

In qualità di utente finale, puoi trarre vantaggio dalla risoluzione delle entità nei seguenti modi:

  • È possibile risolvere le entità esistenti senza dover ricorrere a tariffe per il trasferimento di dati, un abbonato o un Partner Google Cloud associa i tuoi dati alla propria tabella delle identità e scrive i risultati delle corrispondenze in un set di dati del tuo progetto.
  • Non è necessario gestire i job ETL (Extract, Transform, Load).

In qualità di provider di identità, puoi trarre vantaggio dalla risoluzione delle entità nei seguenti modi:

  • Puoi offrire la risoluzione delle entità come SaaS (Software as a Service) gestito l'offerta il giorno Google Cloud Marketplace.
  • Puoi utilizzare i grafici di identità di proprietà e la logica di corrispondenza senza rivelandoli agli utenti.

Architettura

BigQuery implementa la risoluzione delle entità utilizzando la funzione remota che attivano i processi di risoluzione delle entità nella console completamente gestito di Google Cloud. Non è necessario copiare o spostare i dati durante questa procedura. Il diagramma e la spiegazione seguenti descrivono il flusso di lavoro per l'entità risoluzione:

Un diagramma che mostra due sezioni principali: un progetto dell'utente finale e un'identità
progetto del provider.

  1. L'utente finale concede l'accesso in lettura all'account di servizio del provider di identità al set di dati di input e accesso in scrittura al set di dati di output.
  2. L'utente chiama la funzione remota che associa i dati di input a dati del grafico di identità del provider. I parametri di corrispondenza vengono passati con la funzione remota.
  3. L'account di servizio del provider legge il set di dati di input e lo elabora.
  4. L'account di servizio del provider scrive i risultati della risoluzione dell'entità in il set di dati di output dell'utente.

Le seguenti sezioni descrivono i componenti degli utenti finali e i progetti del provider.

Componenti dell'utente finale

I componenti degli utenti finali includono:

  • Chiamata di funzione remota: una chiamata che esegue una procedura definita e implementato dal provider di identità. Questa chiamata avvia la risoluzione dell'entità e il processo di sviluppo.
  • Set di dati di input: il set di dati di origine contenente i dati da utilizzare corrispondente. Facoltativamente, il set di dati può contenere una tabella di metadati con parametri aggiuntivi. I provider specificano i requisiti di schema per l'input e set di dati.
  • Set di dati di output: il set di dati di destinazione in cui il provider archivia i risultati corrispondenti come tabella di output. Facoltativamente, il provider può scrivere una tabella di stato dei job che contiene i dettagli del job di risoluzione delle entità del set di dati. Il set di dati di output può essere uguale al set di dati di input.

Componenti del provider di identità

I componenti del provider di identità includono quanto segue:

  • Piano di controllo: contiene una Funzione remota BigQuery che orchestra il processo di corrispondenza. Questa funzione può essere implementata come un job Cloud Run o un funzione Cloud Functions. La di controllo può anche contenere altri servizi, come l'autenticazione autorizzazione.
  • Piano dati: contiene il set di dati del grafico delle identità e le che implementa la logica di corrispondenza dei provider. La stored procedure può essere implementato stored procedure SQL o un stored procedure di Apache Spark. Il set di dati del grafico delle identità contiene le tabelle in cui sono contenuti i dati dell'utente finale trova una corrispondenza.

Passaggi successivi