Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Introduzione al framework di risoluzione delle entità di BigQuery
Questo documento descrive l'architettura del framework di risoluzione delle entità BigQuery. La risoluzione delle entità è la capacità di abbinare i record tra i dati condivisi in cui non esiste un identificatore comune o di integrare i dati condivisi utilizzando un servizio di identità di un Google Cloud partner.
Questo documento è rivolto agli utenti finali della risoluzione delle entità (di seguito denominati utenti finali) e ai fornitori di servizi di identità. Per i dettagli sull'implementazione, consulta
Configurare e utilizzare la risoluzione delle entità in
BigQuery.
Puoi utilizzare la risoluzione delle entità BigQuery per qualsiasi dato preparato prima di aggiungerlo a una data clean room.
La risoluzione delle entità è disponibile sia nei modelli di prezzi on demand sia in quelli basati sulla capacità, nonché in tutte le versioni di BigQuery.
Vantaggi
In qualità di utente finale, puoi trarre vantaggio dalla risoluzione delle entità nei seguenti modi:
Puoi risolvere le entità in situ senza invocare le tariffe per il trasferimento dei dati perché un abbonato o un Google Cloud partner associa i tuoi dati alla propria tabella di identità
e scrive i risultati della corrispondenza in un set di dati del tuo progetto.
Non è necessario gestire i job di estrazione, trasformazione e caricamento (ETL).
In qualità di provider di identità, puoi trarre vantaggio dalla risoluzione delle entità nei seguenti modi:
Puoi offrire la risoluzione delle entità come offerta Software as a Service (SaaS) gestita su Google Cloud Marketplace.
Puoi utilizzare i tuoi grafici di identità proprietari e la logica di corrispondenza senza rivelarli agli utenti.
Architettura
BigQuery implementa la risoluzione delle entità utilizzando chiamate di funzioni remote che attivano i processi di risoluzione delle entità nell'ambiente di un provider di identità. Non è necessario copiare o spostare i dati durante questa procedura.
Il seguente diagramma e la relativa spiegazione descrivono il flusso di lavoro per la risoluzione delle entità:
L'utente finale concede all'account di servizio del provider di identità l'accesso in lettura al set di dati di input e l'accesso in scrittura al set di dati di output.
L'utente chiama la funzione remota che associa i dati di input ai dati del grafo di identità del fornitore. I parametri di corrispondenza vengono passati al fornitore con la funzione remota.
L'account di servizio del fornitore legge il set di dati di input ed esegue l'elaborazione.
L'account di servizio del fornitore scrive i risultati della risoluzione delle entità nel set di dati di output dell'utente.
Le sezioni seguenti descrivono i componenti per gli utenti finali e i progetti del provider.
Componenti per gli utenti finali
I componenti per gli utenti finali includono:
Chiamata di funzione remota: una chiamata che esegue una procedura definita e implementata dal provider di identità. Questa chiamata avvia la procedura di risoluzione delle entità.
Set di dati di input: il set di dati di origine contenente i dati da abbinare. Se vuoi, il set di dati può contenere una tabella di metadati con parametri aggiuntivi. I fornitori specificano i requisiti dello schema per i set di dati di input.
Set di dati di output: il set di dati di destinazione in cui il fornitore memorizza
i risultati corrispondenti come tabella di output. Facoltativamente, il fornitore può scrivere
in questo
set di dati una tabella dello stato del job contenente i dettagli del job di risoluzione delle entità. Il set di dati di output può essere uguale a quello di input.
Componenti del provider di identità
I componenti del provider di identità includono:
Piano di controllo: contiene una
funzione remota BigQuery
che orchestra il processo di corrispondenza. Questa funzione può essere implementata come job Cloud Run o come funzione Cloud Run. Il piano di controllo può contenere anche altri servizi, come l'autenticazione e l'autorizzazione.
Piattaforma dati: contiene il set di dati del grafo delle identità e la procedura memorizzata che implementa la logica di corrispondenza dei provider. La stored procedure può essere implementata come stored procedure SQL o come stored procedure Apache Spark.
Il set di dati del grafo delle identità contiene le tabelle con cui vengono abbinati i dati dell'utente finale.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-04 UTC."],[[["\u003cp\u003eBigQuery entity resolution matches records across shared data without common identifiers or augments data using an identity service from a Google Cloud partner.\u003c/p\u003e\n"],["\u003cp\u003eEnd users benefit from in-place entity resolution without data transfer fees or the need to manage ETL jobs, as the matching is done by a subscriber or Google Cloud partner.\u003c/p\u003e\n"],["\u003cp\u003eIdentity providers can offer entity resolution as a managed SaaS product on Google Cloud Marketplace and use their proprietary identity graphs without revealing them.\u003c/p\u003e\n"],["\u003cp\u003eBigQuery's entity resolution architecture uses remote function calls to activate processes in the identity provider's environment without moving the user's data.\u003c/p\u003e\n"],["\u003cp\u003eThe entity resolution process involves end users granting access to their datasets, calling a remote function, and the provider reading the input and writing the matched results to the user's output dataset.\u003c/p\u003e\n"]]],[],null,["# Introduction to the BigQuery entity resolution framework\n========================================================\n\nThis document describes the architecture of the BigQuery entity\nresolution framework. Entity resolution is the ability to match records across\nshared data where no common identifier exists or to augment shared data using an\nidentity service from a Google Cloud partner.\n\nThis document is intended for entity resolution end users (hereafter referred\nto as *end users* ) and identity providers. For implementation details, see\n[Configure and use entity resolution in\nBigQuery](/bigquery/docs/entity-resolution-setup).\n\nYou can use BigQuery entity resolution for any data that is\nprepared before contributing data into a\n[data clean room](/bigquery/docs/data-clean-rooms).\nEntity resolution is available in both the on-demand and capacity pricing\nmodels and in all BigQuery editions.\n\nBenefits\n========\n\nAs an end user, you can benefit from entity resolution in the following ways:\n\n- You can resolve entities in place without invoking data transfer fees because a subscriber or Google Cloud partner matches your data to their identity table and writes the match results to a dataset in your project.\n- You don't need to manage extract, transform, and load (ETL) jobs.\n\nAs an identity provider, you can benefit from entity resolution in the\nfollowing ways:\n\n- You can offer entity resolution as a managed software as a service (SaaS) offering on [Google Cloud Marketplace](/marketplace/docs/partners/integrated-saas).\n- You can use your proprietary identity graphs and match logic without revealing them to users.\n\nArchitecture\n------------\n\nBigQuery implements entity resolution by using remote function\ncalls that activate entity resolution processes in an identity provider's\nenvironment. Your data does not need to be copied or moved during this process.\nThe following diagram and explanation describe the workflow for entity\nresolution:\n\n1. The end user grants the identity provider's service account read access to their input dataset, and write access to their output dataset.\n2. The user calls the remote function that matches their input data with the provider's identity graph data. Matching parameters are passed to the provider with the remote function.\n3. The provider's service account reads the input dataset and processes it.\n4. The provider's service account writes the entity resolution results to the user's output dataset.\n\nThe following sections describe the end-user components and provider projects.\n\n### End-user components\n\nEnd-user components include the following:\n\n- **Remote function call**: a call that runs a procedure defined and implemented by the identity provider. This call starts the entity resolution process.\n- **Input dataset**: the source dataset that contains the data to be matched. Optionally, the dataset can contain a metadata table with additional parameters. Providers specify schema requirements for input datasets.\n- **Output dataset**: the destination dataset where the provider stores the matched results as an output table. Optionally, the provider can write a job status table that contains entity resolution job details to this dataset. The output dataset can be the same as the input dataset.\n\n### Identity provider components\n\nIdentity provider components include the following:\n\n- **Control plane** : contains a [BigQuery remote function](/bigquery/docs/remote-functions) that orchestrates the matching process. This function can be implemented as a [Cloud Run](/run/docs/overview/what-is-cloud-run) job, or a [Cloud Run function](/functions/docs/concepts/overview). The control plane can also contain other services, such as authentication and authorization.\n- **Data plane** : contains the identity graph dataset and the stored procedure that implements the provider matching logic. The stored procedure can be implemented as a [SQL stored procedure](/bigquery/docs/procedures) or an [Apache Spark stored procedure](/bigquery/docs/spark-procedures). The identity graph dataset contains the tables that the end-user data is matched against.\n\n| **Note:** Identity graphs can also be stored in some external databases.\n\nWhat's next\n-----------\n\n- To learn how to use entity resolution in your project, see [Configure and use entity resolution in BigQuery](/bigquery/docs/entity-resolution-setup)."]]