이 페이지는 Cloud Translation API를 통해 번역되었습니다.

데이터 분석, AI, 제휴 학습을 위한 컨피덴셜 컴퓨팅

Last reviewed 2024-12-20 UTC

이 문서에서는 컨피덴셜 컴퓨팅의 일반적인 개요를 제공하며, 이를 안전한 데이터 협업, AI 모델 학습, 제휴 학습에 어떻게 활용할 수 있는지를 설명합니다. 또한 이 문서에서는Google Cloud 의 컨피덴셜 컴퓨팅 서비스 및 다양한 사용 사례에 대한 아키텍처 참조 정보를 제공합니다.

이 문서는 기술 경영자가 금융 서비스, 의료 등 다양한 산업 분야에서 생성형 AI 및 응용 AI와 함께 컨피덴셜 컴퓨팅이 지닌 비즈니스 잠재력을 이해할 수 있도록 도와줍니다.

컨피덴셜 컴퓨팅이란 무엇인가요?

데이터 보안 관행은 일반적으로 암호화를 통해 저장 중인 데이터와 전송 중인 데이터를 보호하는 데 중점을 두어 왔습니다. 컨피덴셜 컴퓨팅은 여기에 더해, 데이터가 실제로 사용되는 동안에 발생할 수 있는 취약점을 해결함으로써 새로운 보호 계층을 제공합니다. 이 기술은 민감한 정보가 처리되는 중에도 기밀성을 유지하도록 보장하여, 데이터 보안의 중요한 격차를 해소하는 데 도움이 됩니다.

컨피덴셜 컴퓨팅 환경은 하드웨어 기반 신뢰할 수 있는 실행 환경(TEE)을 통해 사용 중인 데이터 보호를 구현합니다. TEE는 프로세서 내의 안전한 영역으로, 그 안에 로드된 코드와 데이터의 기밀성과 무결성을 보호합니다. TEE는 민감한 연산을 위한 안전한 공간 역할을 하여, 시스템이 손상되더라도 데이터에 대한 위험을 완화합니다. 컨피덴셜 컴퓨팅을 사용하면 데이터는 처리되는 동안에도 메모리 내에서 암호화된 상태로 유지될 수 있습니다.

예를 들어 컨피덴셜 컴퓨팅을 데이터 분석 및 머신러닝에 활용하면 다음과 같은 효과를 얻을 수 있습니다.

개인 정보 보호 강화: 민감한 데이터 세트(예: 의료 기록, 금융 데이터)에 대한 분석을 수행하면서도 데이터가 기본 인프라 또는 연산에 참여하는 당사자에게 노출되지 않도록 할 수 있습니다.
보안 협업: 여러 당사자의 데이터 세트를 결합해 공동으로 머신러닝 모델을 학습하거나 분석을 수행하면서도, 각자의 개별 데이터는 서로에게 공개하지 않을 수 있습니다. 컨피덴셜 컴퓨팅은 신뢰를 구축하고, 특히 의료 및 금융과 같은 분야에서 더욱 견고하고 일반화 가능한 모델을 개발할 수 있도록 지원합니다.
데이터 보안 강화: 데이터 유출이나 무단 액세스 위험을 완화하고, 개인 정보 보호법(GDPR) 또는 건강 보험 이동성 및 책임법(HIPAA)과 같은 데이터 보호 규정을 준수할 수 있도록 지원합니다.
신뢰 및 투명성 증대: 안전한 환경에서 의도된 데이터에 대해 연산이 수행되었음을 검증할 수 있는 증거를 제공하여, 이해관계자 간의 신뢰를 높입니다.

컨피덴셜 컴퓨팅 환경의 작동 방식

컨피덴셜 컴퓨팅 환경은 다음과 같은 속성을 가집니다.

런타임 암호화: 프로세서는 컨피덴셜 컴퓨팅 환경의 모든 데이터를 메모리에서 암호화된 상태로 유지합니다. 시스템 구성요소나 하드웨어 공격자가 메모리에서 컨피덴셜 컴퓨팅 환경 데이터를 직접 읽으려고 해도 암호화된 데이터만 볼 수 있습니다. 마찬가지로 암호화는 메모리에 대한 직접 액세스를 통한 컨피덴셜 컴퓨팅 환경 데이터의 변조도 방지합니다.
격리: 프로세서가 컨피덴셜 컴퓨팅 환경에 대해 소프트웨어 기반 액세스를 차단합니다. 운영체제 및 기타 애플리케이션은 특정 인터페이스를 통해서만 컨피덴셜 컴퓨팅 환경과 통신할 수 있습니다.
증명: 컨피덴셜 컴퓨팅의 맥락에서 증명은 컨피덴셜 컴퓨팅 환경의 신뢰성을 검증하는 역할을 합니다. 증명을 통해 사용자는 컨피덴셜 컴퓨팅이 데이터를 보호하고 있다는 증거를 확인할 수 있는데, 이는 증명이 TEE 인스턴스를 인증하기 때문입니다.

증명 과정에서는 TEE를 지원하는 CPU 칩이 인스턴스 측정값에 대해 암호화 방식으로 서명된 보고서(증명 보고서라고 함)를 생성합니다. 이 측정값은 증명 서비스로 전송됩니다. 프로세스 격리를 위한 증명은 애플리케이션을 인증합니다. VM 격리를 위한 증명은 VM 자체나 VM을 실행하는 데 사용되는 가상 펌웨어, 혹은 그 둘 모두를 인증합니다.
데이터 수명 주기 보안: 컨피덴셜 컴퓨팅은 사용 중 데이터 보안을 위해 하드웨어 기반의 보호를 제공하는 안전한 처리 환경을 만듭니다.

컨피덴셜 컴퓨팅 기술

컨피덴셜 컴퓨팅을 지원하는 기술은 다음과 같습니다.

보안 엔클레이브: 애플리케이션 기반 컨피덴셜 컴퓨팅이라고도 불립니다.
컨피덴셜 VM 및 GPU: VM 기반 컨피덴셜 컴퓨팅이라고도 불립니다.

Google Cloud 는 컨피덴셜 VM을 사용하여 컨피덴셜 컴퓨팅을 사용 설정합니다. 자세한 내용은 Google Cloud에서 컨피덴셜 컴퓨팅 구현을 참조하세요.

보안 엔클레이브

보안 엔클레이브는 하드웨어 기반 격리를 사용하여 코드와 데이터를 운영체제로부터 격리하거나 하이퍼바이저를 신뢰할 수 있는 컴퓨팅 기반(TCB) 내에 배치하여 전체 VM을 격리하는 컴퓨팅 환경입니다. 보안 엔클레이브는 머신과 운영체제에 대한 물리적 액세스 권한이나 루트 액세스 권한을 가진 사용자조차 보안 엔클레이브 메모리의 내용을 확인하거나, 엔클레이브 내부에서 실행되는 코드를 변조하지 못하도록 설계되었습니다. 보안 인클레이브의 대표적인 예는 Intel Software Guard Extension(SGX)입니다.

컨피덴셜 VM 및 컨피덴셜 GPU

컨피덴셜 VM은 하드웨어 기반 메모리 암호화를 사용하여 데이터와 애플리케이션을 보호하는 VM 유형입니다. 컨피덴셜 VM은 격리와 증명을 제공하여 보안을 강화합니다. 컨피덴셜 VM 컴퓨팅 기술에는 AMD SEV, AMD SEV-SNP, Intel TDX, Arm CCA, IBM Z, IBM LinuxONE, Nvidia Confidential GPU 등이 포함됩니다.

컨피덴셜 GPU는 특히 클라우드 및 공유 환경에서 데이터 보호와 컴퓨팅 가속을 지원합니다. 컨피덴셜 GPU는 하드웨어 기반 암호화와 격리 기술을 사용해 GPU에서 데이터가 처리되는 동안에도 보호가 이루어지도록 하여, 클라우드 제공업체나 악의적인 행위자조차 민감한 정보에 액세스할 수 없도록 합니다.

컨피덴셜 데이터 분석, AI, 제휴 학습 사용 사례

다음 섹션에서는 다양한 산업에서의 컨피덴셜 컴퓨팅 사용 사례를 보여줍니다.

의료 및 생명과학

컨피덴셜 컴퓨팅은 환자 개인 정보를 보존하면서도 조직 간 안전한 데이터 공유와 분석을 가능하게 합니다. 컨피덴셜 컴퓨팅을 통해 의료 기관은 공동 연구, 질병 모델링, 신약 개발, 개인 맞춤형 치료 계획에 참여할 수 있습니다.

다음 표에서는 의료 분야에서 컨피덴셜 컴퓨팅의 몇 가지 사용 사례를 보여줍니다.

사용 사례	설명
질병 예측 및 조기 발견	병원은 제휴 학습 모델을 학습시켜 의료 영상 데이터(예: 여러 병원 또는 병원 지역에서 수집된 MRI 스캔, CT 스캔)를 기반으로 암 병변을 탐지하면서도 환자 기밀성을 유지할 수 있습니다.
실시간 환자 모니터링	의료 서비스 제공업체는 웨어러블 의료 기기와 모바일 의료 앱에서 수집한 데이터를 분석해 실시간 모니터링과 알림을 제공합니다. 예를 들어 웨어러블 기기가 혈당 수치, 신체 활동, 식습관 데이터를 수집하여 개인 맞춤형 권고와 혈당 변동에 대한 조기 경고를 제공합니다.
협업 신약 개발	제약 회사는 자사 고유 데이터 세트를 기반으로 모델을 학습시켜 신약 개발을 가속화하고, 지식 재산을 보호하면서 협업을 강화할 수 있습니다.

금융 서비스

컨피덴셜 컴퓨팅은 금융 기관이 더 안전하고 복원력이 뛰어난 금융 시스템을 구축할 수 있도록 지원합니다.

다음 표에서는 금융 서비스 분야에서 컨피덴셜 컴퓨팅의 몇 가지 사용 사례를 보여줍니다.

사용 사례	설명
금융 범죄	금융 기관은 고객 개인 정보를 보호하면서도 의심스러운 거래에 대한 정보를 공유하여 자금 세탁 방지(AML) 또는 일반적인 사기 탐지 모델 개발에 협력할 수 있습니다. 금융 기관은 컨피덴셜 컴퓨팅을 활용하여 공유 데이터를 안전하게 분석하고, 복잡한 자금 세탁 계획을 더 효과적으로 식별 및 차단하는 모델을 학습시킬 수 있습니다.
개인 정보 보호 신용 위험 평가	대출 기관은 다른 금융 기관 또는 비금융 기관의 데이터까지 포함한 더 다양한 데이터 소스를 활용해 신용 위험을 평가할 수 있습니다. 대출 기관은 컨피덴셜 컴퓨팅을 활용해 데이터를 무단 접근으로부터 보호하면서 안전하게 액세스하고 분석할 수 있습니다. 이를 통해 데이터 개인 정보 보호를 지키면서 신용 평가 모델의 정확성을 높일 수 있습니다.
개인 정보 보호 가격 산정	금융 시장, 특히 장외 거래나 비유동 자산 분야에서는 정확한 가격 산정이 중요합니다. 컨피덴셜 컴퓨팅은 여러 기관이 각자의 민감한 정보를 공개하지 않고도 협력적으로 정확한 가격을 계산할 수 있도록 해줍니다.

공공 부문

컨피덴셜 컴퓨팅은 정부가 데이터에 대한 통제권과 주권을 유지하면서도 더 투명하고 효율적이며 효과적인 서비스를 제공할 수 있도록 지원합니다.

다음 표에서는 공공 부문에서 컨피덴셜 컴퓨팅의 몇 가지 사용 사례를 보여줍니다.

사용 사례	설명
디지털 주권	컨피덴셜 컴퓨팅은 데이터가 처리되는 동안에도 항상 암호화된 상태를 보장합니다. 이를 통해 시민 데이터를 외부 인프라에 호스팅하더라도, 하이브리드, 퍼블릭 또는 멀티 클라우드 환경에서 안전하게 클라우드로 이전할 수 있습니다. 컨피덴셜 컴퓨팅은 사용 중인 데이터에 대한 추가 보호와 제어를 제공해, 클라우드 제공업체가 암호화 키에 액세스할 수 없도록 함으로써 디지털 주권과 디지털 자율성을 강화합니다.
다중 기관 컨피덴셜 분석	컨피덴셜 컴퓨팅은 여러 정부 기관(예: 보건, 세무, 교육) 간이나 지역 또는 국가 간 여러 정부 기관 간의 다자간 데이터 분석을 가능하게 합니다. 컨피덴셜 컴퓨팅은 신뢰 경계와 데이터 개인 정보 보호를 보장하면서도 데이터 손실 방지(DLP), 대규모 분석, 정책 엔을 활용한 데이터 분석과 AI 학습 및 서빙을 지원합니다.
신뢰할 수 있는 AI	정부 데이터는 매우 중요하며, 내부 서비스 개선과 시민 서비스 강화를 위해 신뢰할 수 있는 방법으로 프라이빗 AI 모델을 학습하는 데 활용될 수 있습니다. 컨피덴셜 컴퓨팅은 시민 데이터와 모델을 안전하게 보호하기 위해 컨피덴셜 프롬프트 또는 컨피덴셜 검색 증강 생성(RAG) 학습을 지원하는 신뢰할 수 있는 AI 프레임워크를 제공합니다.

공급망

컨피덴셜 컴퓨팅은 조직이 데이터 개인 정보 보호를 유지하면서도 공급망과 지속 가능성을 관리를 협업하고 인사이트를 공유할 수 있도록 지원합니다.

다음 표에서는 공급망 분야에서 컨피덴셜 컴퓨팅의 몇 가지 사용 사례를 보여줍니다.

사용 사례	설명
수요 예측 및 재고 최적화	각 기업은 컨피덴셜 컴퓨팅을 통해 자체 판매 및 재고 데이터를 활용하여 자체 수요 예측 모델을 학습시킵니다. 이후 이러한 모델들이 안전하게 집계되어 전역 모델을 형성하고, 이를 통해 공급망 전반에 걸친 수요 패턴을 더 정확하고 종합적으로 파악할 수 있습니다.
개인 정보 보호 공급업체 위험 평가	공급업체 위험 평가에 참여하는 각 조직(예: 구매자, 금융 기관, 감사 기관)은 자체 데이터를 기반으로 자체 위험 평가 모델을 학습시킵니다. 이후 이러한 모델들이 집계되어 종합적이고 개인 정보 보호를 지원하는 공급업체 위험 프로필을 생성합니다. 이를 통해 잠재적 공급업체 위험을 조기에 식별하고, 공급망 복원력을 강화하며, 공급업체 선정 및 관리에서 더 나은 의사결정을 내릴 수 있습니다.
탄소 발자국 추적 및 감축	컨피덴셜 컴퓨팅은 탄소 발자국 추적 및 감축 노력에서 발생하는 데이터 개인 정보 보호와 투명성 문제를 해결할 수 있는 방안을 제공합니다. 컨피덴셜 컴퓨팅을 활용하면 조직은 원시 데이터를 공개하지 않고도 데이터를 공유 및 분석할 수 있으며, 이를 통해 근거 기반의 의사결정과 효과적인 행동으로 지속 가능한 미래를 향해 나아갈 수 있습니다.

디지털 광고

디지털 광고는 서드 파티 쿠키에서 벗어나 개인 정보 보호 샌드박스와 같은 더 안전한 개인 정보 보호 대안을 지향하고 있습니다. 개인 정보 보호 샌드박스는 교차 사이트 및 애플리케이션 추적을 제한하면서도 필수적인 광고 사용 사례를 지원합니다. 개인 정보 보호 샌드박스는 광고 회사가 사용자 데이터를 안전하게 처리할 수 있도록 TEE를 활용합니다.

다음은 디지털 광고에서 TEE를 활용할 수 있는 사례입니다.

매칭 알고리즘: 데이터 세트 내에서 상관 관계 또는 대응 관계를 찾습니다.
기여 분석: 효과 또는 이벤트를 해당 원인에 연결합니다.
집계: 원시 데이터에서 요약값 또는 통계치를 계산합니다.

Google Cloud에서 컨피덴셜 컴퓨팅 구현

Google Cloud 에는 컨피덴셜 컴퓨팅을 사용 설정하는 다음 서비스가 포함되어 있습니다.

컨피덴셜 VM: VM을 사용하는 워크로드에 사용 중 데이터 암호화를 사용 설정합니다.
Confidential GKE: 컨테이너를 사용하는 워크로드에 사용 중 데이터 암호화를 사용 설정합니다.
기밀 Dataflow: 스트리밍 분석 및 머신러닝에 사용 중 데이터 암호화를 사용 설정합니다.
Confidential Dataproc: 데이터 처리에 사용 중 데이터 암호화를 사용 설정합니다.
Confidential Space: 공동 데이터 분석 및 머신러닝에 사용 중 데이터 암호화를 사용 설정합니다.

이러한 서비스는 신뢰 경계를 줄여서, 컨피덴셜 데이터에 접근할 수 있는 리소스 수를 최소화할 수 있도록 해줍니다. 예를 들어 컨피덴셜 컴퓨팅을 사용하지 않는 Google Cloud환경에서는 신뢰 경계에Google Cloud 인프라(하드웨어, 하이퍼바이저, 호스트 OS)와 게스트 OS가 포함됩니다. 컨피덴셜 컴퓨팅을 사용하는 Google Cloud 환경(Confidential Space 제외)에서는 신뢰 경계에 게스트 OS와 애플리케이션만 포함됩니다. Confidential Space를 사용하는 Google Cloud환경에서는 신뢰 경계가 애플리케이션과 그에 연관된 메모리 공간으로만 축소됩니다. 다음 표에서는 컨피덴셜 컴퓨팅 및 Confidential Space를 통해 신뢰 경계가 어떻게 줄어드는지를 보여줍니다.

요소	컨피덴셜 컴퓨팅을 사용하지 않는 경우 신뢰 경계 내	컨피덴셜 컴퓨팅을 사용하는 경우 신뢰 경계 내	Confidential Space를 사용하는 경우 신뢰 경계 내
클라우드 스택 및 관리자	예	아니요	아니요
BIOS 및 펌웨어	예	아니요	아니요
호스트 OS 및 하이퍼바이저	예	아니요	아니요
VM 게스트 관리자	예	예	아니요
VM 게스트 OS	예	예	예(측정 및 증명됨)
애플리케이션	예	예	예(측정 및 증명됨)
기밀 데이터	예	예	예

Confidential Space는 VM 내에 보안 영역을 만들어 민감한 정보와 애플리케이션을 위한 최고 수준의 격리 및 보호를 제공합니다. Confidential Space의 주요 보안 이점은 다음과 같습니다.

심층 방어: 기존 컨피덴셜 컴퓨팅 기술 위에 추가적인 보안 계층을 제공합니다.
공격 표면 축소: 애플리케이션을 게스트 OS의 잠재적 취약점으로부터 격리합니다.
강화된 제어: 보안 환경 내에서 액세스 및 권한을 세부적으로 제어할 수 있습니다.
더 강한 신뢰: 데이터 기밀성 및 무결성에 대한 보장 수준을 높입니다.

Confidential Space는 특히 규제가 엄격한 산업이나 데이터 개인 정보 보호가 최우선인 다자간 협업 시나리오에서 매우 민감한 워크로드를 처리하도록 설계되었습니다.

컨피덴셜 분석, AI, 제휴 학습을 위한 아키텍처 참조

다음 사용 사례를 해결하기 위해 Google Cloud 에서 컨피덴셜 컴퓨팅을 구현할 수 있습니다.

컨피덴셜 분석
컨피덴셜 AI
컨피덴셜 제휴 학습

다음 섹션에서는 금융 및 의료 기업을 포함한 다양한 사용 사례에 대한 예시와 함께, 이러한 사용 사례를 위한 아키텍처에 대해 자세히 설명합니다.

의료 기관을 위한 컨피덴셜 분석 아키텍처

이 컨피덴셜 분석 아키텍처는 여러 의료 기관(예: 의료 서비스 제공자, 바이오 제약사, 연구 기관)이 협력하여 신약 연구를 가속화하는 방법을 보여줍니다. 이 아키텍처는 컨피덴셜 컴퓨팅 기술을 활용해 디지털 데이터 클린룸을 구축하고, 그 안에서 컨피덴셜 협업 분석을 실행합니다.

이 아키텍처의 주요 이점은 다음과 같습니다.

향상된 인사이트: 공동 분석을 통해 의료 기관은 더 폭넓은 인사이트를 확보하고, 신약 개발에 필요한 TTM(time to market) 시간을 단축할 수 있습니다.
데이터 개인 정보 보호: 민감한 거래 데이터는 암호화된 상태로 유지되며 다른 참여자나 TEE에도 노출되지 않으므로 기밀성이 보장됩니다.
규제 준수: 이 아키텍처는 의료 기관이 데이터 보호 규정을 준수할 수 있도록 데이터에 대한 엄격한 통제를 유지합니다.
신뢰와 협업: 경쟁 관계에 있는 기관들 간에도 안전한 협업을 가능하게 하여, 신약 발견을 위한 공동 노력을 촉진합니다.

다음 다이어그램은 이 아키텍처를 보여줍니다.

의료 기관을 위한 컨피덴셜 분석 아키텍처 다이어그램

이 아키텍처의 주요 구성요소는 다음과 같습니다.

TEE OLAP 집계 서버: 머신러닝 모델 학습과 추론이 실행되는 안전하고 격리된 환경입니다. TEE 내부의 데이터와 코드는 기본 운영체제나 클라우드 제공업체조차 접근할 수 없도록 보호됩니다.
협업 파트너: 참여하는 각 의료 기관은 자체 로컬 환경을 가지고 있으며, 이는 기관의 비공개 데이터와 TEE 사이의 중개자 역할을 합니다.
기관별 암호화된 데이터: 각 의료 기관은 전자건강기록을 포함하여 자체적으로 암호화된 환자 데이터를 보관합니다. 이 데이터는 분석 과정 전반에서 암호화된 상태로 유지되어 데이터 개인 정보 보호가 보장됩니다. 데이터는 각 기관의 증명 검증이 완료된 후에만 TEE로 전송됩니다.
분석 클라이언트: 참여 의료 기관은 컨피덴셜 쿼리를 실행하여 자사 데이터에 대해 즉각적인 인사이트를 얻을 수 있습니다.

금융 기관을 위한 컨피덴셜 AI 아키텍처

이 아키텍처 패턴은 금융 기관이 민감한 거래 데이터의 기밀성을 유지하면서 사기 라벨을 활용해 사기 탐지 모델을 공동 학습하는 방법을 보여줍니다. 이 아키텍처는 컨피덴셜 컴퓨팅 기법을 사용하여 안전한 다자간 머신러닝을 가능하게 합니다.

이 아키텍처의 주요 이점은 다음과 같습니다.

향상된 사기 탐지: 공동 학습은 더 크고 다양한 데이터 세트를 활용하므로, 더 정확하고 효과적인 사기 탐지 모델을 구축할 수 있습니다.
데이터 개인 정보 보호: 민감한 거래 데이터는 암호화된 상태로 유지되며 다른 참여자나 TEE에도 노출되지 않으므로 기밀성이 보장됩니다.
규제 준수: 이 아키텍처는 금융 기관이 데이터 보호 규정을 준수할 수 있도록 데이터에 대한 엄격한 통제를 유지합니다.
신뢰와 협업: 경쟁 관계에 있는 기관들 간에도 안전한 협업을 가능하게 하여, 금융 사기를 방지하기 위한 공동 노력을 촉진합니다.

다음 다이어그램은 이 아키텍처를 보여줍니다.

금융 기관을 위한 컨피덴셜 분석 아키텍처 다이어그램

이 아키텍처의 주요 구성요소는 다음과 같습니다.

TEE OLAP 집계 서버: 머신러닝 모델 학습과 추론이 실행되는 안전하고 격리된 환경입니다. TEE 내부의 데이터와 코드는 기본 운영체제나 클라우드 제공업체조차 접근할 수 없도록 보호됩니다.
TEE 모델 학습: 전역 사기 탐지 기본 모델은 컨테이너로 패키징되어 ML 학습을 실행합니다. TEE 내부에서는 모든 참여 은행의 암호화된 데이터를 사용해 전역 모델이 추가 학습됩니다. 학습 과정에서는 제휴 학습이나 보안 다자간 계산과 같은 기법이 적용되어 원시 데이터가 노출되지 않도록 합니다.
협업 파트너: 참여하는 각 금융 기관은 자체 로컬 환경을 가지고 있으며, 이는 기관의 비공개 데이터와 TEE 사이의 중개자 역할을 합니다.
은행별 암호화된 데이터: 각 은행은 사기 라벨을 포함한 자체 비공개 암호화 거래 데이터를 보관합니다. 이 데이터는 전체 과정에서 암호화된 상태로 유지되어 데이터 개인 정보 보호가 보장됩니다. 데이터는 개별 은행의 증명 검증이 완료된 후에만 TEE로 전송됩니다.
모델 저장소: 공동 학습의 시작점이 되는 사전 학습된 사기 탐지 모델을 보관합니다.
전역 사기 탐지 학습 모델 및 가중치(녹색 선으로 표시): 개선된 사기 탐지 모델과 학습된 가중치가 참여 은행으로 안전하게 다시 전달됩니다. 각 은행은 이 향상된 모델을 자사 환경에서 배포하여 자체 거래에 대한 사기 탐지를 수행할 수 있습니다.

금융 기관을 위한 컨피덴셜 제휴 학습 아키텍처

제휴 학습은 엄격한 데이터 개인 정보 보호와 데이터 주권을 중시하는 고객을 위한 고급 솔루션을 제공합니다. 컨피덴셜 제휴 학습 아키텍처는 AI 애플리케이션에서 데이터를 활용하기 위한 안전하고 확장 가능하며 효율적인 방식을 제공합니다. 이 아키텍처는 데이터를 한 곳에 중앙 집중화하지 않고 데이터가 저장된 위치로 모델을 이동시켜 학습함으로써 데이터 유출과 관련된 위험을 줄입니다.

이 아키텍처 패턴은 여러 금융 기관이 사기 라벨을 포함한 민감한 거래 데이터의 기밀성을 유지하면서 사기 탐지 모델을 공동 학습하는 방법을 보여줍니다. 이때 제휴 학습과 컨피덴셜 컴퓨팅 기술을 함께 활용하여 학습 데이터의 이동 없이 안전한 다자간 머신러닝을 가능하게 합니다.

이 아키텍처의 주요 이점은 다음과 같습니다.

향상된 데이터 개인 정보 보호 및 보안: 제휴 학습은 민감한 정보가 각 기관에 그대로 남아 있도록 보장하여 데이터 개인 정보 보호와 데이터 현지 보존을 실현합니다. 또한 금융 기관은 동형 암호화와 개인 정보 차등 보호 필터와 같은 개인 정보 보호 필터와 같은 개인 정보 보호 기법을 활용하여 모델 가중치와 같이 전송되는 데이터까지 추가적으로 보호할 수 있습니다.
정확성과 다양성 향상: 서로 다른 고객의 다양한 데이터 소스를 활용해 학습함으로써, 금융 기관은 이질적인 데이터 세트를 더 잘 반영하는 강력하고 일반화 가능한 전역 모델을 개발할 수 있습니다.
확장성 및 네트워크 효율성: 에지에서 학습을 수행할 수 있는 능력을 통해 기관들은 전 세계적으로 제휴 학습을 확장할 수 있습니다. 또한 전체 데이터 세트가 아니라 모델 가중치만 전송하면 되므로 기관들이 네트워크 리소스를 효율적으로 활용할 수 있습니다.

다음 다이어그램은 이 아키텍처를 보여줍니다.

컨피덴셜 제휴 학습 아키텍처 다이어그램

이 아키텍처의 주요 구성요소는 다음과 같습니다.

TEE 클러스터 내 제휴 서버: 안전하고 격리된 환경에서 제휴 학습 서버가 여러 클라이언트의 협업을 조율합니다. 서버는 먼저 초기 모델을 제휴 학습 클라이언트에 배포합니다. 클라이언트는 로컬 데이터 세트로 학습을 수행한 후 모델 업데이트를 다시 제휴 학습 서버로 전송합니다. 서버는 이 업데이트들을 집계하여 전역 모델을 형성합니다.
제휴 학습 모델 저장소: 제휴 학습의 출발점이 되는 사전 학습된 사기 탐지 모델을 보관합니다.
로컬 애플리케이션 추론 엔진: 이 애플리케이션은 로컬 데이터 세트로 작업을 실행하고, 로컬 연산 및 학습을 수행한 후, 결과를 제휴 학습 서버에 제출하여 안전한 집계에 참여합니다.
로컬 비공개 데이터: 각 은행은 사기 라벨을 포함한 자체 비공개 암호화 거래 데이터를 보관합니다. 이 데이터는 전체 과정에서 암호화된 상태로 유지되어 데이터 개인 정보 보호가 보장됩니다.
보안 집계 프로토콜(파란색 점선으로 표시): 제휴 학습 서버는 개별 은행의 업데이트에 직접 액세스할 필요가 없습니다. 대신, 무작위로 선택된 은행(또는 사이트) 하위 집합으로부터 업데이트 벡터의 요소별 가중 평균만을 요구합니다. 이 보안 집계 프로토콜을 사용해 가중 평균을 계산하면, 서버는 특정 단어를 이 무작위 하위 집합에 속한 한 개 이상의 은행이 기록했다는 사실만 알 수 있을 뿐, 어떤 은행이 했는지는 알 수 없습니다. 이를 통해 제휴 학습 과정에서 각 참여자의 개인 정보 보호가 유지됩니다.
전역 사기 탐지 학습 모델 및 집계된 가중치(녹색 선으로 표시): 개선된 사기 탐지 모델과 학습된 가중치가 참여 은행으로 안전하게 다시 전달됩니다. 각 은행은 이 향상된 모델을 자사 환경에서 배포하여 자체 거래에 대한 사기 탐지를 수행할 수 있습니다.

다음 단계

컨피덴셜 AI: AI의 데이터 보호 문제 극복을 모색하는 Intel 사례 읽어보기
컨피덴셜 컴퓨팅의 현재와 미래 읽어보기
Keith Moyer의 컨피덴셜 컴퓨팅을 통한 다자간 보안 협업 지원(Google) | OC3(YouTube) 보기
컨피덴셜 컴퓨팅의 새로운 기능 보기 (YouTube)
사용자 환경에서 컨피덴셜 컴퓨팅 및 Confidential Space 구현
Google Cloud의 컨피덴셜 컴퓨팅 기본사항 자세히 알아보기
보다 프라이빗한 생성형 AI 사용 설정 자세히 알아보기

참여자

아룬 산타나고팔란 | 기술 및 인큐베이션 책임자, Google Cloud
파블로 로드리게스 | 기술 디렉터, CTO 오피스
비닛 다베 | 기술 및 인큐베이션 책임자, Google Cloud