BigQuery 항목 확인 프레임워크 소개

이 문서에서는 BigQuery 항목 확인 프레임워크 아키텍처를 설명합니다. 항목 확인은 공통 식별자가 없는 공유 데이터 간에 레코드를 일치시키거나 Google Cloud 파트너의 ID 서비스를 사용하여 공유 데이터를 보강하는 기능입니다.

이 문서는 항목 확인 최종 사용자(이하 최종 사용자로 지칭) 및 ID 공급업체를 대상으로 합니다. 구현 세부정보는 BigQuery에서 항목 확인 구성 및 사용을 참조하세요.

데이터 클린룸에 데이터를 제공하기 전에 준비된 모든 데이터에 BigQuery 항목 확인을 사용할 수 있습니다. 주문형 및 용량 가격 책정 모델과 모든 BigQuery 버전에서 항목 확인을 사용할 수 있습니다.

이점

최종 사용자는 다음과 같은 방법으로 항목 확인을 활용할 수 있습니다.

구독자 또는 Google Cloud 파트너가 데이터를 ID 테이블과 일치시키고 일치 결과를 프로젝트의 데이터 세트에 기록하므로 데이터 전송 수수료를 지불하지 않고도 항목을 확인할 수 있습니다.
추출, 변환, 로드(ETL) 작업을 관리할 필요가 없습니다.

ID 공급업체는 다음과 같은 방법으로 항목 확인을 활용할 수 있습니다.

Google Cloud Marketplace에서 관리형 Software as a Service(SaaS) 제품으로 항목 확인을 제공할 수 있습니다.
사용자에게 공개하지 않고 독점적 ID 그래프와 일치 로직을 사용할 수 있습니다.

BigQuery는 ID 공급업체 환경에서 항목 확인 프로세스를 활성화하는 원격 함수 호출을 사용하여 항목 확인을 구현합니다. 이 과정에서 데이터를 복사하거나 이동할 필요가 없습니다. 다음 다이어그램과 설명은 항목 확인 워크플로를 설명합니다.

최종 사용자 프로젝트와 ID 공급업체 프로젝트라는 두 가지 주요 섹션을 보여주는 다이어그램

최종 사용자가 ID 공급업체의 서비스 계정에 입력 데이터 세트에 대한 읽기 액세스 권한과 출력 데이터 세트에 대한 쓰기 액세스 권한을 부여합니다.
사용자는 입력 데이터를 제공업체의 ID 그래프 데이터와 일치시키는 원격 함수를 호출합니다. 일치하는 매개변수가 원격 함수를 사용하여 공급업체로 전달됩니다.
공급업체의 서비스 계정이 입력 데이터 세트를 읽고 처리합니다.
공급업체의 서비스 계정이 항목 확인 결과를 사용자의 출력 데이터 세트에 씁니다.

다음 섹션에서는 최종 사용자 구성요소 및 공급업체 프로젝트에 대해 설명합니다.

최종 사용자 구성요소는 다음과 같습니다.

원격 함수 호출: ID 공급업체에서 정의 및 구현하는 프로시져를 실행하는 호출입니다. 이 호출은 항목 확인 프로세스를 시작합니다.
입력 데이터 세트: 일치시킬 데이터가 포함된 소스 데이터 세트입니다. 원하는 경우 데이터 세트에 추가 매개변수가 있는 메타데이터 테이블을 포함할 수 있습니다. 공급업체에서 입력 데이터 세트의 스키마 요구사항을 지정합니다.
출력 데이터 세트: 공급업체가 일치하는 결과를 출력 테이블로 저장하는 대상 데이터 세트입니다. 원하는 경우 공급업체에서 항목 확인 작업 세부정보가 포함된 작업 상태 테이블을 이 데이터 세트에 작성할 수 있습니다. 출력 데이터 세트는 입력 데이터 세트와 동일할 수 있습니다.

ID 공급업체 구성요소는 다음과 같습니다.

컨트롤 플레인: 일치하는 프로세스를 조정하는 BigQuery 원격 함수를 포함합니다. 이 함수는 Cloud Run 작업 또는 Cloud Run 함수로 구현될 수 있습니다. 컨트롤 플레인에는 인증 및 승인과 같은 다른 서비스도 포함될 수 있습니다.
데이터 영역: ID 그래프 데이터 세트와 공급업체 일치 로직을 구현하는 저장 프로시져를 포함합니다. 저장 프로시져는 SQL 저장 프로시져 또는 Apache Spark 저장 프로시져로 구현될 수 있습니다. ID 그래프 데이터 세트에는 최종 사용자 데이터가 일치하는 테이블이 포함됩니다.