BigQuery는 ID 공급업체 환경에서 항목 확인 프로세스를 활성화하는 원격 함수 호출을 사용하여 항목 확인을 구현합니다. 이 과정에서 데이터를 복사하거나 이동할 필요가 없습니다.
다음 다이어그램과 설명은 항목 확인 워크플로를 설명합니다.
최종 사용자가 ID 공급업체의 서비스 계정에 입력 데이터 세트에 대한 읽기 액세스 권한과 출력 데이터 세트에 대한 쓰기 액세스 권한을 부여합니다.
사용자는 입력 데이터를 제공업체의 ID 그래프 데이터와 일치시키는 원격 함수를 호출합니다. 일치하는 매개변수가 원격 함수를 사용하여 공급업체로 전달됩니다.
공급업체의 서비스 계정이 입력 데이터 세트를 읽고 처리합니다.
공급업체의 서비스 계정이 항목 확인 결과를 사용자의 출력 데이터 세트에 씁니다.
다음 섹션에서는 최종 사용자 구성요소 및 공급업체 프로젝트에 대해 설명합니다.
최종 사용자 구성요소
최종 사용자 구성요소는 다음과 같습니다.
원격 함수 호출: ID 공급업체에서 정의 및 구현하는 프로시져를 실행하는 호출입니다. 이 호출은 항목 확인 프로세스를 시작합니다.
입력 데이터 세트: 일치시킬 데이터가 포함된 소스 데이터 세트입니다. 원하는 경우 데이터 세트에 추가 매개변수가 있는 메타데이터 테이블을 포함할 수 있습니다. 공급업체에서 입력 데이터 세트의 스키마 요구사항을 지정합니다.
출력 데이터 세트: 공급업체가 일치하는 결과를 출력 테이블로 저장하는 대상 데이터 세트입니다. 원하는 경우 공급업체에서 항목 확인 작업 세부정보가 포함된 작업 상태 테이블을 이 데이터 세트에 작성할 수 있습니다. 출력 데이터 세트는 입력 데이터 세트와 동일할 수 있습니다.
데이터 영역: ID 그래프 데이터 세트와 공급업체 일치 로직을 구현하는 저장 프로시져를 포함합니다. 저장 프로시져는 SQL 저장 프로시져 또는 Apache Spark 저장 프로시져로 구현될 수 있습니다.
ID 그래프 데이터 세트에는 최종 사용자 데이터가 일치하는 테이블이 포함됩니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[[["\u003cp\u003eBigQuery entity resolution matches records across shared data without common identifiers or augments data using an identity service from a Google Cloud partner.\u003c/p\u003e\n"],["\u003cp\u003eEnd users benefit from in-place entity resolution without data transfer fees or the need to manage ETL jobs, as the matching is done by a subscriber or Google Cloud partner.\u003c/p\u003e\n"],["\u003cp\u003eIdentity providers can offer entity resolution as a managed SaaS product on Google Cloud Marketplace and use their proprietary identity graphs without revealing them.\u003c/p\u003e\n"],["\u003cp\u003eBigQuery's entity resolution architecture uses remote function calls to activate processes in the identity provider's environment without moving the user's data.\u003c/p\u003e\n"],["\u003cp\u003eThe entity resolution process involves end users granting access to their datasets, calling a remote function, and the provider reading the input and writing the matched results to the user's output dataset.\u003c/p\u003e\n"]]],[],null,["# Introduction to the BigQuery entity resolution framework\n========================================================\n\nThis document describes the architecture of the BigQuery entity\nresolution framework. Entity resolution is the ability to match records across\nshared data where no common identifier exists or to augment shared data using an\nidentity service from a Google Cloud partner.\n\nThis document is intended for entity resolution end users (hereafter referred\nto as *end users* ) and identity providers. For implementation details, see\n[Configure and use entity resolution in\nBigQuery](/bigquery/docs/entity-resolution-setup).\n\nYou can use BigQuery entity resolution for any data that is\nprepared before contributing data into a\n[data clean room](/bigquery/docs/data-clean-rooms).\nEntity resolution is available in both the on-demand and capacity pricing\nmodels and in all BigQuery editions.\n\nBenefits\n========\n\nAs an end user, you can benefit from entity resolution in the following ways:\n\n- You can resolve entities in place without invoking data transfer fees because a subscriber or Google Cloud partner matches your data to their identity table and writes the match results to a dataset in your project.\n- You don't need to manage extract, transform, and load (ETL) jobs.\n\nAs an identity provider, you can benefit from entity resolution in the\nfollowing ways:\n\n- You can offer entity resolution as a managed software as a service (SaaS) offering on [Google Cloud Marketplace](/marketplace/docs/partners/integrated-saas).\n- You can use your proprietary identity graphs and match logic without revealing them to users.\n\nArchitecture\n------------\n\nBigQuery implements entity resolution by using remote function\ncalls that activate entity resolution processes in an identity provider's\nenvironment. Your data does not need to be copied or moved during this process.\nThe following diagram and explanation describe the workflow for entity\nresolution:\n\n1. The end user grants the identity provider's service account read access to their input dataset, and write access to their output dataset.\n2. The user calls the remote function that matches their input data with the provider's identity graph data. Matching parameters are passed to the provider with the remote function.\n3. The provider's service account reads the input dataset and processes it.\n4. The provider's service account writes the entity resolution results to the user's output dataset.\n\nThe following sections describe the end-user components and provider projects.\n\n### End-user components\n\nEnd-user components include the following:\n\n- **Remote function call**: a call that runs a procedure defined and implemented by the identity provider. This call starts the entity resolution process.\n- **Input dataset**: the source dataset that contains the data to be matched. Optionally, the dataset can contain a metadata table with additional parameters. Providers specify schema requirements for input datasets.\n- **Output dataset**: the destination dataset where the provider stores the matched results as an output table. Optionally, the provider can write a job status table that contains entity resolution job details to this dataset. The output dataset can be the same as the input dataset.\n\n### Identity provider components\n\nIdentity provider components include the following:\n\n- **Control plane** : contains a [BigQuery remote function](/bigquery/docs/remote-functions) that orchestrates the matching process. This function can be implemented as a [Cloud Run](/run/docs/overview/what-is-cloud-run) job, or a [Cloud Run function](/functions/docs/concepts/overview). The control plane can also contain other services, such as authentication and authorization.\n- **Data plane** : contains the identity graph dataset and the stored procedure that implements the provider matching logic. The stored procedure can be implemented as a [SQL stored procedure](/bigquery/docs/procedures) or an [Apache Spark stored procedure](/bigquery/docs/spark-procedures). The identity graph dataset contains the tables that the end-user data is matched against.\n\n| **Note:** Identity graphs can also be stored in some external databases.\n\nWhat's next\n-----------\n\n- To learn how to use entity resolution in your project, see [Configure and use entity resolution in BigQuery](/bigquery/docs/entity-resolution-setup)."]]