데이터 분석 및 AI를 위한 컨피덴셜 컴퓨팅

Last reviewed 2024-12-20 UTC

이 문서에서는 기밀 컴퓨팅을 안전한 데이터 공동작업 및 제휴 학습에 사용하는 방법을 비롯하여 기밀 컴퓨팅에 관한 일반적인 개요를 제공합니다. 이 문서에서는Google Cloud 의 기밀 컴퓨팅 서비스에 관한 정보와 다양한 사용 사례의 아키텍처 참조도 제공합니다.

이 문서는 금융 서비스 및 의료를 비롯한 다양한 업계에서 생성형 AI 및 응용 AI를 통한 비밀 컴퓨팅의 비즈니스 잠재력을 기술 임원들이 이해하는 데 도움이 되도록 작성되었습니다.

컨피덴셜 컴퓨팅 개요

데이터 보안 관행은 전통적으로 암호화를 통해 저장 데이터와 전송 중인 데이터를 보호하는 데 중점을 두었습니다. 컨피덴셜 컴퓨팅은 데이터가 사용 중일 때의 취약점을 해결하여 새로운 보호 계층을 추가합니다. 이 기술은 민감한 정보가 처리되는 동안에도 기밀로 유지되도록 하여 데이터 보안의 중요한 격차를 해소하는 데 도움이 됩니다.

컨피덴셜 컴퓨팅 환경은 하드웨어 기반 신뢰할 수 있는 실행 환경(TEE)을 사용하여 사용 중인 데이터 보호를 구현합니다. TEE는 프로세서 내의 보안 영역으로, 프로세서 내로 로드된 코드와 데이터의 기밀성과 무결성을 보호합니다. TEE는 민감한 작업을 위한 안전한 공간 역할을 하여 시스템이 손상되더라도 데이터에 대한 위험을 완화합니다. 컨피덴셜 컴퓨팅을 사용하면 처리 중에 데이터를 메모리에 암호화된 상태로 유지할 수 있습니다.

예를 들어 데이터 분석 및 머신러닝에 비공개 컴퓨팅을 사용하여 다음을 달성할 수 있습니다.

  • 향상된 개인 정보 보호: 데이터를 기본 인프라 또는 계산에 참여하는 당사자에게 노출하지 않고 민감한 데이터 세트 (예: 의료 기록 또는 금융 데이터)를 분석합니다.
  • 안전한 공동작업: 서로 개인 데이터를 공개하지 않고도 머신러닝 모델을 공동으로 학습하거나 여러 당사자의 결합된 데이터 세트에서 분석을 실행할 수 있습니다. 컨피덴셜 컴퓨팅은 신뢰를 구축하고 특히 의료 및 금융과 같은 부문에서 더 강력하고 일반화 가능한 모델을 개발할 수 있도록 지원합니다.
  • 데이터 보안 개선: 개인 정보 유출 및 무단 액세스의 위험을 완화하여 일반 데이터 보호법 (GDPR) 또는 건강 보험 이동성 및 책임법 (HIPAA)과 같은 데이터 보호 규정을 준수합니다.
  • 신뢰 및 투명성 향상: 의도한 데이터와 안전한 환경에서 계산이 실행되었음을 입증할 수 있는 증거를 제공하여 이해관계자 간의 신뢰를 높입니다.

비밀 컴퓨팅 환경의 작동 방식

기밀 컴퓨팅 환경에는 다음과 같은 속성이 있습니다.

  • 런타임 암호화: 프로세서는 모든 컨피덴셜 컴퓨팅 환경 데이터를 메모리에 암호화된 상태로 유지합니다. 메모리에서 기밀 컴퓨팅 환경 데이터를 직접 읽으려고 시도하는 시스템 구성요소 또는 하드웨어 공격자는 암호화된 데이터만 볼 수 있습니다. 마찬가지로 암호화는 메모리에 대한 직접 액세스를 통해 기밀 컴퓨팅 환경 데이터가 수정되는 것을 방지합니다.
  • 격리: 프로세서가 컨피덴셜 컴퓨팅 환경에 대한 소프트웨어 기반 액세스를 차단합니다. 운영체제 및 기타 애플리케이션은 특정 인터페이스를 통해서만 기밀 컴퓨팅 환경과 통신할 수 있습니다.
  • 증명: 컨피덴셜 컴퓨팅 맥락에서 증명은 컨피덴셜 컴퓨팅 환경의 신뢰성을 확인합니다. 사용자는 증명을 사용하여 컨피덴셜 컴퓨팅이 데이터를 보호하고 있다는 증거를 확인할 수 있습니다. 증명을 사용하면 TEE 인스턴스를 인증할 수 있기 때문입니다.

    증명 프로세스 중에 TEE를 지원하는 CPU 칩은 인스턴스 측정의 암호화 서명된 보고서 (증명 보고서라고 함)를 생성합니다. 그런 다음 측정값이 증명 서비스로 전송됩니다. 프로세스 격리의 증명은 애플리케이션을 인증합니다. VM 격리의 증명은 VM, VM을 실행하는 데 사용되는 가상 펌웨어 또는 둘 다를 인증합니다.

  • 데이터 수명 주기 보안: 컨피덴셜 컴퓨팅은 안전한 처리 환경을 만들어 사용 중인 데이터에 하드웨어 지원 보호 기능을 제공합니다.

컨피덴셜 컴퓨팅 기술

다음 기술을 사용하면 컨피덴셜 컴퓨팅을 지원할 수 있습니다.

  • 애플리케이션 기반 컨피덴셜 컴퓨팅이라고도 하는 보안 엔클레이브
  • 컨피덴셜 VM 및 GPU(VM 기반 컨피덴셜 컴퓨팅이라고도 함)

Google Cloud 는 Confidential VM을 사용하여 기밀 컴퓨팅을 지원합니다. 자세한 내용은 Google Cloud에서 기밀 컴퓨팅 구현을 참고하세요.

보안 엔클레이브

보안 엔클레이브는 하드웨어 기반 격리를 사용하거나 하이퍼바이저를 신뢰할 수 있는 컴퓨팅 기반 (TCB) 내에 배치하여 전체 VM을 격리하여 운영체제에서 코드와 데이터를 격리하는 컴퓨팅 환경입니다. 보안 엔클레이브는 머신 및 운영체제에 대한 물리적 또는 루트 액세스 권한이 있는 사용자도 보안 엔클레이브 메모리의 콘텐츠를 알아내거나 엔클레이브 내에서 코드 실행을 조작할 수 없도록 설계되었습니다. 보안 엔클레이브의 예로는 Intel Software Guard Extension (SGX)이 있습니다.

컨피덴셜 VM 및 컨피덴셜 GPU

컨피덴셜 VM은 하드웨어 기반 메모리 암호화를 사용하여 데이터와 애플리케이션을 보호하는 VM 유형입니다. 컨피덴셜 VM은 격리 및 증명을 제공하여 보안을 강화합니다. 컨피덴셜 VM 컴퓨팅 기술에는 AMD SEV, AMD SEV-SNP, Intel TDX, Arm CCA, IBM Z, IBM LinuxONE, Nvidia 컨피덴셜 GPU가 포함됩니다.

Confidential GPU는 특히 클라우드 및 공유 환경에서 데이터를 보호하고 컴퓨팅을 가속화하는 데 도움이 됩니다. 하드웨어 기반 암호화 및 격리 기술을 사용하여 GPU에서 데이터가 처리되는 동안 데이터를 보호하므로 클라우드 제공업체나 악의적인 행위자도 민감한 정보에 액세스할 수 없습니다.

업종별 사용 사례

다음 섹션에서는 다양한 업계의 기밀 컴퓨팅 사용 사례의 예시를 제공합니다.

의료 및 생명과학

컨피덴셜 컴퓨팅을 사용하면 조직 전반에서 안전하게 데이터를 공유하고 분석하면서도 환자의 개인 정보를 보호할 수 있습니다. 컨피덴셜 컴퓨팅을 사용하면 의료 기관이 공동 연구, 질병 모델링, 신약 개발, 맞춤 치료 계획에 참여할 수 있습니다.

다음 표에서는 의료 분야에서 컨피덴셜 컴퓨팅을 사용하는 몇 가지 예를 설명합니다.

사용 사례 설명

질병 예측 및 조기 감지

병원은 제휴 학습 모델을 학습하여 의료 영상 데이터 (예: 여러 병원 또는 병원 지역의 MRI 스캔 또는 CT 스캔)에서 암성 병변을 감지하면서 환자의 비밀을 유지합니다.

실시간 환자 모니터링

의료인은 웨어러블 건강 기기 및 모바일 건강 앱의 데이터를 분석하여 실시간 모니터링 및 알림을 제공합니다. 예를 들어 웨어러블 기기는 혈당 수치, 신체 활동, 식습관에 관한 데이터를 수집하여 맞춤 추천과 혈당 변동에 대한 조기 경보를 제공합니다.

공동 신약 개발

제약회사는 독점 데이터 세트에서 모델을 학습하여 의약품 발견을 가속화하고, 지적 재산을 보호하면서 공동작업을 강화합니다.

금융 서비스

컨피덴셜 컴퓨팅을 사용하면 금융 기관이 더 안전하고 탄력적인 금융 시스템을 만들 수 있습니다.

다음 표에서는 금융 서비스에서 비밀 컴퓨팅을 사용하는 몇 가지 예를 설명합니다.

사용 사례 설명

금융 범죄

금융 기관은 고객 개인 정보를 보호하면서 의심스러운 거래에 관한 정보를 공유하여 자금 세탁 방지 (AML) 또는 일반적인 사기 모델 작업에 협력할 수 있습니다. 기관은 기밀 컴퓨팅을 사용하여 이러한 공유 데이터를 안전하게 분석하고 모델을 학습하여 복잡한 자금 세탁 계획을 더 효과적으로 식별하고 중단할 수 있습니다.

개인 정보를 보호하는 신용 위험 평가

대출 기관은 다른 금융 기관 또는 비금융 기관의 데이터를 비롯한 더 광범위한 데이터 소스를 사용하여 신용 위험을 평가할 수 있습니다. 기밀 컴퓨팅을 사용하면 대출 기관이 이 데이터를 승인되지 않은 당사자에게 노출하지 않고도 액세스하고 분석할 수 있으므로 데이터 개인 정보 보호를 유지하면서 신용 점수 모델의 정확성을 높일 수 있습니다.

개인 정보 보호 가격 검색

금융 업계, 특히 장외 시장이나 유동성이 낮은 자산과 같은 영역에서는 정확한 가격 책정이 중요합니다. 기밀 컴퓨팅을 사용하면 여러 기관이 민감한 정보를 서로 공개하지 않고도 공동으로 정확한 가격을 계산할 수 있습니다.

공공 부문

컨피덴셜 컴퓨팅을 사용하면 정부가 데이터의 제어권과 주권을 유지하면서 더 투명하고 효율적이며 효과적인 서비스를 만들 수 있습니다.

다음 표에서는 공공 부문에서 비밀 컴퓨팅을 사용하는 몇 가지 예를 설명합니다.

사용 사례 설명

디지털 주권

컨피덴셜 컴퓨팅을 사용하면 데이터가 처리되는 동안에도 항상 암호화됩니다. 이 제품을 사용하면 하이브리드, 퍼블릭 또는 멀티 클라우드 환경 전반에서 외부 인프라에 호스팅되더라도 데이터가 보호되므로 시민 데이터를 안전하게 클라우드로 이전할 수 있습니다. 비밀 컴퓨팅은 클라우드 제공업체가 암호화 키에 액세스할 수 없도록 사용 중인 데이터에 대한 추가 데이터 제어 및 보호 기능을 통해 디지털 주권과 디지털 자율성을 지원하고 강화합니다.

기관 간 기밀 분석

비밀 컴퓨팅을 사용하면 여러 정부 기관 (예: 보건, 세금, 교육) 또는 여러 지역 또는 국가의 여러 정부 간에 다자간 데이터 분석을 실행할 수 있습니다. 기밀 컴퓨팅은 데이터 손실 방지(DLP), 대규모 분석, 정책 엔진을 사용한 데이터 분석, AI 학습 및 제공을 지원하는 동시에 신뢰 경계와 데이터 개인 정보 보호를 보장하는 데 도움이 됩니다.

신뢰할 수 있는 AI

정부 데이터는 매우 중요하며 신뢰할 수 있는 방식으로 비공개 AI 모델을 학습하여 내부 서비스와 시민 상호작용을 개선하는 데 사용할 수 있습니다. 컨피덴셜 컴퓨팅을 사용하면 기밀 프롬프트 또는 기밀 검색 증강 생성 (RAG) 학습을 통해 신뢰할 수 있는 AI 프레임워크를 사용하여 시민 데이터와 모델을 비공개로 안전하게 유지할 수 있습니다.

공급망

컨피덴셜 컴퓨팅을 사용하면 조직이 공급망을 관리하고 지속가능성을 위한 협업을 진행하며 데이터 개인 정보 보호를 유지하면서 통계를 공유할 수 있습니다.

다음 표에서는 공급망에서 비공개 컴퓨팅을 사용하는 몇 가지 예를 설명합니다.

사용 사례 설명

수요 예측 및 인벤토리 최적화

비공개 컴퓨팅을 사용하면 각 비즈니스가 자체 판매 및 인벤토리 데이터를 기반으로 자체 수요 예측 모델을 학습할 수 있습니다. 그런 다음 이러한 모델은 글로벌 모델로 안전하게 집계되어 공급망 전반의 수요 패턴을 보다 정확하고 전체적으로 파악할 수 있습니다.

개인 정보 보호 공급업체 위험 평가

공급업체 위험 평가에 참여하는 각 조직 (예: 구매자, 금융 기관, 감사인)은 자체 데이터를 기반으로 자체 위험 평가 모델을 학습합니다. 이러한 모델을 종합하여 포괄적이고 개인 정보를 보호하는 공급업체 위험 프로필을 생성함으로써 잠재적 공급업체 위험을 조기에 파악하고, 공급망 회복력을 개선하며, 공급업체 선택 및 관리에서 더 나은 의사결정을 내릴 수 있습니다.

탄소 발자국 추적 및 감소

비밀 컴퓨팅은 탄소 발자국 추적 및 감소 노력에서 데이터 개인 정보 보호 및 투명성 문제를 해결하기 위한 솔루션을 제공합니다. 기밀 컴퓨팅을 사용하면 조직이 원시 형식을 공개하지 않고도 데이터를 공유하고 분석할 수 있으므로 조직이 정보에 입각한 결정을 내리고 보다 지속 가능한 미래를 향해 효과적인 조치를 취할 수 있습니다.

디지털 광고

디지털 광고는 서드 파티 쿠키에서 개인 정보 보호 샌드박스와 같은 개인 정보 보호에 더 적합한 대안으로 전환되었습니다. 개인 정보 보호 샌드박스는 크로스 사이트 및 애플리케이션 추적을 제한하면서 중요한 광고 사용 사례를 지원합니다. 개인 정보 보호 샌드박스는 TEE를 사용하여 광고 회사가 사용자 데이터를 안전하게 처리할 수 있도록 합니다.

다음과 같은 디지털 광고 사용 사례에서 TEEs를 사용할 수 있습니다.

  • 일치 알고리즘: 데이터 세트 내에서 상응 관계 또는 관계를 찾습니다.
  • 기여 분석: 효과 또는 이벤트를 그 원인으로 추정되는 항목에 연결합니다.
  • 집계: 원시 데이터에서 요약 또는 통계를 계산합니다.

Google Cloud에서 기밀 컴퓨팅 구현

Google Cloud 에는 비밀 컴퓨팅을 지원하는 다음 서비스가 포함되어 있습니다.

  • 컨피덴셜 VM: VM을 사용하는 워크로드에 사용 중인 데이터의 암호화를 사용 설정합니다.
  • Confidential GKE: 컨테이너를 사용하는 워크로드의 사용 중 데이터 암호화 사용 설정
  • Confidential Dataflow: 스트리밍 분석 및 머신러닝에 사용 중인 데이터의 암호화를 사용 설정합니다.
  • 컨피덴셜 Dataproc: 데이터 처리에 사용 중인 데이터의 암호화를 사용 설정합니다.
  • Confidential Space: 공동 데이터 분석 및 머신러닝에 사용 중인 데이터의 암호화를 사용 설정합니다.

이러한 서비스를 사용하면 신뢰 경계를 줄여 기밀 데이터에 액세스할 수 있는 리소스를 줄일 수 있습니다. 예를 들어 Google Cloud환경에서 비밀 컴퓨팅이 사용되지 않는 경우 신뢰 경계에는Google Cloud 인프라 (하드웨어, 하이퍼바이저, 호스트 OS)와 게스트 OS가 포함됩니다. 기밀 컴퓨팅 (기밀 공간 제외)이 포함된 Google Cloud 환경에서 신뢰 경계는 게스트 OS와 애플리케이션만 포함합니다. Confidential Space가 있는 Google Cloud환경에서 신뢰 경계는 애플리케이션과 연결된 메모리 공간에 불과합니다. 다음 표는 컨피덴셜 컴퓨팅 및 Confidential Space를 사용하여 신뢰 경계가 줄어드는 방식을 보여줍니다.

요소 컨피덴셜 컴퓨팅을 사용하지 않는 신뢰 경계 내 컨피덴셜 컴퓨팅을 사용할 때 신뢰 경계 내에서 Confidential Space를 사용할 때의 신뢰 경계 내

클라우드 스택 및 관리자

아니요

아니요

BIOS 및 펌웨어

아니요

아니요

호스트 OS 및 하이퍼바이저

아니요

아니요

VM 게스트 관리자

아니요

VM 게스트 OS

예, 측정 및 증명됨

애플리케이션

예, 측정 및 증명됨

기밀 데이터

Confidential Space는 VM 내에 안전한 영역을 만들어 민감한 데이터와 애플리케이션을 최고 수준으로 격리하고 보호합니다. 비공개 스페이스의 주요 보안 이점은 다음과 같습니다.

  • 심층 방어: 기존 기밀 컴퓨팅 기술 위에 보안 레이어를 추가합니다.
  • 공격에 노출되는 영역 감소: 게스트 OS의 잠재적 취약점으로부터 애플리케이션을 격리합니다.
  • 제어 강화: 보안 환경 내에서 액세스 및 권한을 세분화하여 제어할 수 있습니다.
  • 신뢰 강화: 데이터 기밀 유지 및 무결성에 대한 보증이 강화됩니다.

Confidential Space는 특히 규제 대상 업계 또는 데이터 개인 정보 보호가 중요한 다자간 공동작업이 포함된 시나리오에서 매우 민감한 워크로드를 처리하도록 설계되었습니다.

아키텍처 참조

Google Cloud 에서 기밀 컴퓨팅을 구현하여 다음과 같은 사용 사례를 해결할 수 있습니다.

  • 기밀 분석
  • 기밀 AI
  • 기밀 제휴 학습

다음 섹션에서는 금융 및 의료 비즈니스의 예를 포함하여 이러한 사용 사례의 아키텍처에 대해 자세히 설명합니다.

의료 기관을 위한 기밀 분석 아키텍처

비공개 분석 아키텍처는 여러 의료 기관 (예: 의료기관, 바이오 의약품, 연구 기관)이 협력하여 약물 연구를 가속화하는 방법을 보여줍니다. 이 아키텍처는 컨피덴셜 컴퓨팅 기법을 사용하여 기밀 공동 분석을 실행하기 위한 디지털 클린 룸을 만듭니다.

이 아키텍처에는 다음과 같은 이점이 있습니다.

  • 향상된 통계: 공동작업 분석을 통해 의료 기관은 더 폭넓은 통계를 얻고 향상된 약물 발견을 위해 TTM(time to market)을 줄일 수 있습니다.
  • 데이터 개인 정보 보호: 민감한 거래 데이터는 암호화된 상태로 유지되며 다른 참여자나 TEE에 노출되지 않으므로 기밀성이 보장됩니다.
  • 규정 준수: 이 아키텍처는 의료 기관이 데이터를 엄격하게 제어하여 데이터 보호 규정을 준수하는 데 도움이 됩니다.
  • 신뢰 및 공동작업: 이 아키텍처는 경쟁 기관 간의 안전한 공동작업을 지원하여 약물 발견을 위한 공동 노력을 촉진합니다.

다음 다이어그램은 이 아키텍처를 보여줍니다.

의료 기관을 위한 기밀 분석 아키텍처 다이어그램

이 아키텍처의 주요 구성요소는 다음과 같습니다.

  • TEE OLAP 집계 서버: 머신러닝 모델 학습 및 추론이 이루어지는 안전하고 격리된 환경입니다. TEE 내의 데이터와 코드는 기본 운영체제 또는 클라우드 제공업체로부터도 무단 액세스로부터 보호됩니다.
  • 공동작업 파트너: 참여하는 각 의료 기관에는 기관의 비공개 데이터와 TEE 간의 중개 역할을 하는 로컬 환경이 있습니다.
  • 제공업체별로 암호화된 데이터: 각 의료 기관은 전자 건강 기록을 포함한 자체 비공개 암호화된 환자 데이터를 저장합니다. 이 데이터는 분석 프로세스 중에 암호화된 상태로 유지되므로 데이터 개인 정보 보호가 보장됩니다. 데이터는 개별 제공업체의 증명 요청을 확인한 후에만 TEE에 공개됩니다.
  • 분석 클라이언트: 참여 의료 기관은 데이터에 대해 기밀 쿼리를 실행하여 즉각적인 통계를 얻을 수 있습니다.

금융기관을 위한 기밀 AI 아키텍처

이 아키텍처 패턴은 금융 기관이 사기 라벨을 사용하여 민감한 거래 데이터의 기밀성을 유지하면서 사기 감지 모델을 공동으로 학습시키는 방법을 보여줍니다. 이 아키텍처는 기밀 컴퓨팅 기술을 사용하여 안전한 다자간 머신러닝을 지원합니다.

이 아키텍처에는 다음과 같은 이점이 있습니다.

  • 향상된 사기 감지: 공동 학습은 더 크고 다양한 데이터 세트를 사용하므로 더 정확하고 효과적인 사기 감지 모델을 만들 수 있습니다.
  • 데이터 개인 정보 보호: 민감한 거래 데이터는 암호화된 상태로 유지되며 다른 참여자나 TEE에 노출되지 않으므로 기밀성이 보장됩니다.
  • 규정 준수: 이 아키텍처는 금융 기관이 데이터를 엄격하게 제어하여 데이터 보호 규정을 준수하는 데 도움이 됩니다.
  • 신뢰 및 공동작업: 이 아키텍처는 경쟁 기관 간의 안전한 공동작업을 지원하여 금융 사기를 방지하기 위한 공동의 노력을 조성합니다.

다음 다이어그램은 이 아키텍처를 보여줍니다.

금융 기관을 위한 기밀 분석 아키텍처 다이어그램

이 아키텍처의 주요 구성요소는 다음과 같습니다.

  • TEE OLAP 집계 서버: 머신러닝 모델 학습 및 추론이 이루어지는 안전하고 격리된 환경입니다. TEE 내의 데이터와 코드는 기본 운영체제 또는 클라우드 제공업체의 무단 액세스로부터 보호됩니다.
  • TEE 모델 학습: 전 세계 사기 기본 모델이 컨테이너로 패키징되어 ML 학습을 실행합니다. TEE 내에서 전 세계 모델은 참여하는 모든 은행의 암호화된 데이터를 사용하여 추가로 학습됩니다. 학습 프로세스에서는 제휴 학습 또는 보안 멀티파티 컴퓨팅과 같은 기술을 사용하여 원시 데이터가 노출되지 않도록 합니다.
  • 공동작업자 파트너: 참여하는 각 금융 기관에는 기관의 비공개 데이터와 TEE 간의 중개자 역할을 하는 로컬 환경이 있습니다.
  • 은행별 암호화 데이터: 각 은행은 사기 라벨이 포함된 자체 비공개 암호화 거래 데이터를 보유합니다. 이 데이터는 전체 프로세스 전반에서 암호화된 상태로 유지되므로 데이터 개인 정보 보호가 보장됩니다. 데이터는 개별 은행의 증명 클레임을 확인한 후에만 TEE에 제공됩니다.
  • 모델 저장소: 공동작업 학습의 시작점 역할을 하는 사전 학습된 사기 감지 모델입니다.
  • 전 세계 사기 학습 모델 및 가중치 (녹색 선으로 표시됨): 개선된 사기 감지 모델은 학습된 가중치와 함께 참여 은행에 안전하게 다시 교환됩니다. 그런 다음 자체 거래에서 사기를 감지하기 위해 이 향상된 모델을 로컬에 배포할 수 있습니다.

금융 기관을 위한 기밀 제휴 학습 아키텍처

제휴 학습은 엄격한 데이터 개인 정보 보호 및 데이터 주권을 중시하는 고객에게 고급 솔루션을 제공합니다. 기밀 제휴 학습 아키텍처는 AI 애플리케이션에 데이터를 사용하는 안전하고 확장 가능하며 효율적인 방법을 제공합니다. 이 아키텍처는 데이터를 단일 위치에 중앙 집중화하는 대신 데이터가 저장된 위치로 모델을 가져와 데이터 유출과 관련된 위험을 줄입니다.

이 아키텍처 패턴은 여러 금융 기관이 사기 라벨을 사용하여 민감한 거래 데이터의 기밀성을 유지하면서 사기 감지 모델을 공동으로 학습시키는 방법을 보여줍니다. 연합 학습과 비밀 컴퓨팅 기술을 함께 사용하여 학습 데이터 이동 없이 안전한 다자간 머신러닝을 지원합니다.

이 아키텍처에는 다음과 같은 이점이 있습니다.

  • 데이터 개인 정보 보호 및 보안 강화: 제휴 학습은 민감한 데이터가 각 사이트에 유지되도록 하여 데이터 개인 정보 보호 및 데이터 위치를 지원합니다. 또한 금융 기관은 동형 암호화 및 개인 정보 차등 보호 필터와 같은 개인 정보 보호 기법을 사용하여 전송된 데이터 (예: 모델 가중치)를 추가로 보호할 수 있습니다.
  • 정확성 및 다양성 개선: 금융 기관은 다양한 고객의 다양한 데이터 소스로 학습하여, 이질적인 데이터 세트를 더 잘 나타내는 강력하고 일반화 가능한 전역 모델을 개발할 수 있습니다.
  • 확장성 및 네트워크 효율성: 에지에서 학습을 실행할 수 있으므로 기관은 전 세계에서 제휴 학습을 확장할 수 있습니다. 또한 기관은 전체 데이터 세트가 아닌 모델 가중치만 전송하면 되므로 네트워크 리소스를 효율적으로 사용할 수 있습니다.

다음 다이어그램은 이 아키텍처를 보여줍니다.

기밀 제휴 학습 아키텍처 다이어그램

이 아키텍처의 주요 구성요소는 다음과 같습니다.

  • TEE 클러스터의 제휴 서버: 제휴 학습 서버가 먼저 제휴 학습 클라이언트로 초기 모델을 전송하여 여러 클라이언트의 공동작업을 조정하는 안전하고 격리된 환경입니다. 클라이언트는 로컬 데이터 세트에서 학습을 실행한 후 집계하여 전역 모델을 형성하기 위해 모델 업데이트를 제휴 학습 서버로 다시 전송합니다.
  • 제휴 학습 모델 저장소: 제휴 학습의 시작점 역할을 하는 사전 학습된 사기 감지 모델입니다.
  • 로컬 애플리케이션 추론 엔진: 태스크를 실행하고, 로컬 데이터 세트를 사용하여 로컬 계산 및 학습을 실행하고, 결과를 제휴 학습 서버에 다시 제출하여 안전하게 집계하는 애플리케이션입니다.
  • 로컬 비공개 데이터: 각 은행은 사기 라벨이 포함된 자체 비공개 암호화 거래 데이터를 보유합니다. 이 데이터는 전체 프로세스 전반에서 암호화된 상태로 유지되므로 데이터 개인 정보 보호가 보장됩니다.
  • 보안 집계 프로토콜 (점선 파란색 선으로 표시): 제휴 학습 서버는 모델을 학습하기 위해 개별 은행의 업데이트에 액세스할 필요가 없습니다. 은행 또는 사이트의 무작위 하위 집합에서 가져온 업데이트 벡터의 요소별 가중 평균만 있으면 됩니다. 보안 집계 프로토콜을 사용하여 이러한 가중 평균을 계산하면 서버가 무작위로 선택된 하위 집합의 은행 중 하나 이상이 특정 단어를 작성했음을 알 수 있지만 어떤 은행인지 알 수는 없으므로 제휴 학습 프로세스의 각 참여자의 개인 정보를 보호할 수 있습니다.
  • 전 세계 사기 예방 학습 모델 및 집계된 가중치 (녹색 선으로 표시됨): 개선된 사기 감지 모델이 학습된 가중치와 함께 참여 은행에 안전하게 다시 전송됩니다. 그러면 은행은 자체 거래에서 사기를 감지하기 위해 이 향상된 모델을 로컬에 배포할 수 있습니다.

다음 단계

참여자