BigQuery 항목 확인 프레임워크 소개
이 문서에서는 BigQuery 항목 확인 프레임워크 아키텍처를 설명합니다. 항목 확인은 공통 식별자가 없는 공유 데이터 간에 레코드를 일치시키거나 Google Cloud 파트너의 ID 서비스를 사용하여 공유 데이터를 보강하는 기능입니다.
이 문서는 항목 확인 최종 사용자(이하 최종 사용자로 지칭) 및 ID 공급업체를 대상으로 합니다. 구현 세부정보는 BigQuery에서 항목 확인 구성 및 사용을 참조하세요.
데이터 클린룸에 데이터를 제공하기 전에 준비된 모든 데이터에 BigQuery 항목 확인을 사용할 수 있습니다. 주문형 및 용량 가격 책정 모델과 모든 BigQuery 버전에서 항목 확인을 사용할 수 있습니다.
이점
최종 사용자는 다음과 같은 방법으로 항목 확인을 활용할 수 있습니다.
- 구독자나 Google Cloud 파트너가 데이터를 ID 테이블과 일치시키고 일치 결과를 프로젝트의 데이터 세트에 기록하므로 데이터 전송 수수료를 지불하지 않고도 항목을 확인할 수 있습니다.
- 추출, 변환, 로드(ETL) 작업을 관리할 필요가 없습니다.
ID 공급업체는 다음과 같은 방법으로 항목 확인을 활용할 수 있습니다.
- Google Cloud Marketplace에서 관리형 Software as a Service(SaaS) 제품으로 항목 확인을 제공할 수 있습니다.
- 사용자에게 공개하지 않고 독점적 ID 그래프와 일치 로직을 사용할 수 있습니다.
아키텍처
BigQuery는 ID 공급업체 환경에서 항목 확인 프로세스를 활성화하는 원격 함수 호출을 사용하여 항목 확인을 구현합니다. 이 과정 중에 데이터를 복사하거나 이동할 필요가 없습니다. 다음 다이어그램과 설명은 항목 확인 워크플로를 설명합니다.
- 최종 사용자는 ID 공급업체의 서비스 계정에 입력 데이터 세트에 대한 읽기 액세스 권한과 출력 데이터 세트에 대한 쓰기 액세스 권한을 부여합니다.
- 사용자가 입력 데이터와 공급업체의 ID 그래프 데이터가 일치하는 원격 함수를 호출합니다. 일치하는 매개변수가 원격 함수를 사용하여 공급업체로 전달됩니다.
- 공급업체의 서비스 계정이 입력 데이터 세트를 읽고 처리합니다.
- 공급업체의 서비스 계정이 항목 확인 결과를 사용자의 출력 데이터 세트에 씁니다.
다음 섹션에서는 최종 사용자 구성요소 및 공급업체 프로젝트에 대해 설명합니다.
최종 사용자 구성요소
최종 사용자 구성요소는 다음과 같습니다.
- 원격 함수 호출: ID 공급업체에서 정의 및 구현하는 프로시져를 실행하는 호출입니다. 이 호출은 항목 확인 프로세스를 시작합니다.
- 입력 데이터 세트: 일치시킬 데이터가 포함된 소스 데이터 세트입니다. 원하는 경우 데이터 세트에 추가 매개변수가 있는 메타데이터 테이블을 포함할 수 있습니다. 공급업체에서 입력 데이터 세트의 스키마 요구사항을 지정합니다.
- 출력 데이터 세트: 공급업체가 일치하는 결과를 출력 테이블로 저장하는 대상 데이터 세트입니다. 원하는 경우 공급업체에서 항목 확인 작업 세부정보가 포함된 작업 상태 테이블을 이 데이터 세트에 작성할 수 있습니다. 출력 데이터 세트는 입력 데이터 세트와 동일할 수 있습니다.
ID 공급업체 구성요소
ID 공급업체 구성요소는 다음과 같습니다.
- 컨트롤 플레인: 일치하는 프로세스를 조정하는 BigQuery 원격 함수를 포함합니다. 이 함수는 Cloud Run 작업 또는 Cloud Run 함수로 구현될 수 있습니다. 컨트롤 플레인에는 인증 및 승인과 같은 다른 서비스도 포함될 수 있습니다.
- 데이터 영역: ID 그래프 데이터 세트와 공급업체 일치 로직을 구현하는 저장 프로시져를 포함합니다. 저장 프로시져는 SQL 저장 프로시져 또는 Apache Spark 저장 프로시져로 구현될 수 있습니다. ID 그래프 데이터 세트에는 최종 사용자 데이터와 일치하는 테이블이 포함됩니다.
다음 단계
- 프로젝트에서 항목 확인을 사용하는 방법은 BigQuery에서 항목 확인 구성 및 사용을 참조하세요.