제휴 학습은 AI 모델을 빌드하는 방식을 혁신할 수 있습니다. 제휴 학습은 방대한 양의 민감한 정보를 단일 중앙 위치에 수집하는 대신 학습 프로세스를 데이터로 직접 가져옵니다. 이러한 분산형 접근 방식은 강력한 개인 정보 보호 기능을 제공할 뿐만 아니라 광범위한 산업 전반에서 협업과 모델 개선을 위한 새로운 가능성을 열어줍니다.
제휴 학습(FL)은 수많은 분산형 에지 기기 또는 서버의 데이터를 사용하여 공유 AI 모델을 학습시킬 수 있는 머신러닝 접근 방식입니다. 이 프로세스는 로컬 데이터 샘플을 교환할 필요 없이 진행됩니다. 개별 참여자가 개인 정보를 공개하지 않고도 공동의 목표에 기여하는 협업 학습 프로세스라고 생각하면 됩니다.
이는 일반적으로 모델 학습을 위해 모든 데이터를 중앙 저장소에 집계해야 하는 기존 머신러닝과 크게 대조됩니다. 중앙 집중식 접근 방식은 AI 발전에 큰 기여를 했지만 데이터 개인 정보 보호, 보안, GDPR과 같은 규정 준수에 대한 우려를 불러일으킬 수 있습니다. 제휴 학습은 민감한 정보를 사용자 기기 또는 조직의 안전한 환경 내에 로컬화하여 개인 정보 보호를 유지하는 대안을 제공합니다.
위에서 언급한 것처럼, 제휴 학습과 기존의 중앙 집중식 머신러닝의 주요 차이점은 학습 과정에서 데이터가 있는 위치에 있습니다.
중앙 집중식 머신러닝은 잘 정립되어 있고 구현하기가 더 쉬운 경우가 많지만, 제휴 학습은 데이터 개인 정보 보호 문제를 본질적으로 해결하고, 대역폭 요구사항을 줄이며, 규정 또는 기밀 유지 계약으로 인해 액세스할 수 없는 데이터에 대한 모델 학습을 허용할 수 있기 때문에 인기를 얻고 있습니다.
제휴 학습은 다양한 요구사항에 맞게 조정됩니다. 주요 차이점은 데이터 배포 방식이나 참여자의 협업 방식에서 비롯되는 경우가 많습니다. 일반적인 유형은 다음과 같습니다.
제휴 학습 유형 | 데이터 중복 | 주요 차이점 | 애플리케이션 예시 |
수평적 제휴 학습 | 동일한 특성 공간, 다른 데이터 인스턴스 | 참여자는 동일한 데이터 스키마를 공유하지만 고유한 샘플 세트를 보유합니다. 학습은 이러한 샘플에 분산됩니다. | 모바일 키보드 예측, 스마트 기기 맞춤설정, 협업 스팸 감지 |
수직적 제휴 학습 | 동일한 데이터 인스턴스, 다른 특성 | 참여자는 동일한 샘플(예: 사용자, 고객)을 공유하지만 해당 샘플에 대해 서로 다른 특성을 가지고 있습니다. | 공동 사기 감지(금융 및 전자상거래 데이터 결합), 신용 평가, 보완적인 데이터 소스를 사용한 맞춤형 추천 |
제휴 전이 학습 | 다양한 기능과 다양한 샘플 | 소스 작업/도메인의 지식을 사용하여 관련은 있지만 다른 타겟 작업/도메인의 성능을 개선합니다. 이러한 작업에는 제휴 설정에서 참여자가 로컬 데이터로 사전 학습 모델을 조정하거나 파인 튜닝하는 작업이 포함되는 경우가 많습니다. | 일반적인 의료 모델을 특정 병원의 환자 데이터에 맞게 조정하거나 대규모 데이터 세트로 학습된 모델을 틈새 산업 애플리케이션에 적용합니다. |
제휴 학습 유형
데이터 중복
주요 차이점
애플리케이션 예시
수평적 제휴 학습
동일한 특성 공간, 다른 데이터 인스턴스
참여자는 동일한 데이터 스키마를 공유하지만 고유한 샘플 세트를 보유합니다. 학습은 이러한 샘플에 분산됩니다.
모바일 키보드 예측, 스마트 기기 맞춤설정, 협업 스팸 감지
수직적 제휴 학습
동일한 데이터 인스턴스, 다른 특성
참여자는 동일한 샘플(예: 사용자, 고객)을 공유하지만 해당 샘플에 대해 서로 다른 특성을 가지고 있습니다.
공동 사기 감지(금융 및 전자상거래 데이터 결합), 신용 평가, 보완적인 데이터 소스를 사용한 맞춤형 추천
제휴 전이 학습
다양한 기능과 다양한 샘플
소스 작업/도메인의 지식을 사용하여 관련은 있지만 다른 타겟 작업/도메인의 성능을 개선합니다. 이러한 작업에는 제휴 설정에서 참여자가 로컬 데이터로 사전 학습 모델을 조정하거나 파인 튜닝하는 작업이 포함되는 경우가 많습니다.
일반적인 의료 모델을 특정 병원의 환자 데이터에 맞게 조정하거나 대규모 데이터 세트로 학습된 모델을 틈새 산업 애플리케이션에 적용합니다.
제휴 학습은 중앙 코디네이터(일반적으로 서버)와 여러 참여 클라이언트(기기 또는 조직)가 포함된 반복적인 프로세스를 통해 작동합니다. 일반적인 워크플로는 다음과 같은 주요 단계로 나눌 수 있습니다.
프로세스는 중앙 서버가 전역 머신러닝 모델을 초기화하는 것으로 시작됩니다. 이 모델은 협업 학습의 시작점 역할을 합니다. 그러면 서버가 이 전역 모델을 참여 클라이언트 기기의 선택된 하위 집합에 배포합니다.
선택된 각 클라이언트 기기는 전역 모델을 수신합니다. 클라이언트는 자체 로컬 데이터를 사용하여 모델을 학습시키고 해당 로컬 데이터 세트에 있는 패턴과 정보를 기반으로 파라미터를 업데이트합니다. 이 단계에서 중요한 점은 원시 데이터가 서버로 전송되지 않고 클라이언트 기기에 그대로 유지된다는 것입니다.
로컬 학습 후 각 클라이언트는 업데이트된 모델 파라미터(예: 경사 또는 가중치)를 중앙 서버로 다시 전송합니다. 이러한 업데이트는 모델이 로컬 데이터에서 학습한 내용을 나타내지만 데이터 자체를 노출하지는 않습니다.
중앙 서버는 여러 클라이언트로부터 모델 업데이트를 수신합니다. 그런 다음 이러한 업데이트를 평균화하여(일반적인 방법은 제휴 평균화 또는 FedAvg) 합산하여 개선된 새로운 버전의 전역 모델을 만듭니다. 이 집계된 모델은 참여하는 모든 클라이언트의 집단 학습을 통해 이점을 얻습니다.
그러면 서버는 새로 업데이트된 전역 모델을 새로운 클라이언트 집합(또는 동일한 클라이언트)에 다시 배포하여 또 다른 로컬 학습을 진행합니다. 이 주기는 원하는 수준의 정확성 또는 수렴에 도달할 때까지 각 반복마다 전역 모델을 점진적으로 개선하면서 여러 번 반복됩니다.
일반적인 제휴 학습 시스템은 다음과 같은 여러 상호 연결된 요소로 구성됩니다.
데이터를 보유하고 로컬 모델 학습을 수행하는 개별 기기 또는 조직입니다. 클라이언트는 휴대전화, IoT 기기부터 병원, 금융 기관에 이르기까지 다양합니다. 이러한 클라이언트는 모델을 로컬에서 실행하고 파라미터 업데이트를 생성하는 역할을 합니다.
중앙 서버는 제휴 학습 프로세스의 조정자 역할을 합니다. 전역 모델을 초기화하고 배포하며, 클라이언트로부터 모델 업데이트를 수집하고, 이러한 업데이트를 집계하여 전역 모델을 개선한 다음 업데이트된 모델을 재배포합니다. 클라이언트의 원시 데이터에 직접 액세스하지 않습니다.
이는 클라이언트와 서버가 정보, 주로 모델 파라미터와 업데이트를 교환하는 방식을 정의합니다. 특히 클라이언트 수가 많고 네트워크 조건이 다양할 수 있다는 점을 고려할 때 효율적이고 안전한 통신 프로토콜이 중요합니다.
중앙 서버가 다양한 클라이언트로부터 수신한 모델 업데이트를 결합하는 데 사용되는 방법입니다. 제휴 평균화와 같은 알고리즘은 가중치 또는 경사를 평균화하여 개선된 단일 전역 모델을 만드는 데 일반적으로 사용됩니다.
제휴 학습은 특히 데이터 개인 정보 보호, 보안, 분산 데이터가 중요한 고려사항인 시나리오에서 몇 가지 강력한 이점을 제공할 수 있습니다.
향상된 데이터 개인 정보 보호 및 보안
이것은 가장 중요한 이점이라고 할 수 있습니다. 제휴 학습은 클라이언트 기기에 데이터를 로컬화하여 전송 또는 저장 중에 민감한 정보가 노출될 위험을 크게 줄일 수 있습니다. 이러한 특성으로 인해 사용자 개인 정보 보호가 강화되고 조직이 엄격한 데이터 보호 규정을 준수하는 데 도움이 됩니다.
다양한 데이터에 대한 액세스
제휴 학습을 사용하면 모델이 사일로화되거나 액세스할 수 없는 광범위한 실제 데이터 소스를 학습할 수 있습니다. 이러한 다양성 덕분에 단일 중앙 집중식 데이터 세트로 학습된 모델에 비해 더 넓은 범위의 사용자 행동, 조건 또는 환경에서 학습되므로 더 강력하고 일반화 가능하며 정확한 모델을 만들 수 있습니다.
통신 비용 절감
모델 업데이트(일반적으로 원시 데이터 세트보다 작음)를 전송하는 것이 특히 많은 에지 기기 또는 지리적으로 분산된 위치가 관련된 시나리오에서 대량의 원시 데이터를 중앙 서버로 전송하는 것보다 대역폭 효율성이 높고 비용이 저렴한 경우가 많습니다.
협업 모델 개선
제휴 학습을 사용하면 조직이나 개인이 독점 데이터 또는 민감한 정보를 공유할 필요 없이 AI 모델을 빌드하고 개선하는 데 협업할 수 있습니다. 이를 통해 보다 포용적인 AI 개발 생태계를 조성하고 서로 다른 소스의 인텔리전스를 통합할 수 있습니다.
간소화된 규정 준수
제휴 학습의 고유한 설계는 데이터를 로컬에 보관하므로 GDPR, CCPA, HIPAA와 같은 복잡한 데이터 개인 정보 보호 규정을 충족하는 데 큰 도움이 될 수 있습니다. 데이터 이동과 중앙 집중화를 최소화함으로써 조직은 데이터 상주 요구사항을 더 잘 충족하고 민감한 개인 정보 또는 건강 정보를 처리하는 데 따른 규정 준수 부담을 줄일 수 있습니다.
데이터 주권 유지
이 접근 방식은 데이터 소유권과 제어권을 존중합니다. 참여 조직 또는 개인은 데이터 애셋에 대한 모든 권한을 보유합니다. 집단 모델에 기여할 때도 원시 데이터는 원래 환경 내에서 안전하게 유지되므로 데이터 거버넌스를 강화하고 협업자 간의 신뢰를 유지할 수 있습니다.
제휴 학습은 이점도 있지만 신중하게 고려해야 할 몇 가지 고유한 잠재적 과제도 있습니다.
제휴 학습을 사용하면 다양한 도메인에서 개인 정보 보호 기능을 갖춘 정교한 애플리케이션을 빌드할 수 있습니다. 제휴 학습의 잠재적인 사용 사례는 다음과 같습니다.
사용자는 제휴 학습을 활용하여 개인 정보 보호를 소홀히 하지 않으면서 사용자 데이터로부터 학습하는 모바일 애플리케이션을 빌드할 수 있습니다. 이는 키보드의 예측 텍스트(예: Gboard), 다음 단어 제안, 맞춤형 추천, 온디바이스 음성 인식과 같은 기능에 매우 중요합니다. 개발자는 사용자 기기에서 직접 모델을 학습시켜 개별 상호작용 패턴에 맞게 조정함으로써 앱 기능과 사용자 경험을 개선할 수 있습니다. 이 모든 과정에서 민감한 개인 정보는 로컬에 보관되어 보호되며 GDPR 및 HIPAA와 같은 규정을 준수할 수 있습니다.
제휴 학습을 사용하면 사용자가 여러 조직에 걸쳐 데이터가 사일로화된 엔터프라이즈를 위한 협업 AI 시스템을 만들 수 있습니다. 이는 개인 정보 보호 규정이나 독점 우려로 인해 데이터 공유가 제한되는 의료 및 금융과 같은 분야에서 매우 유용합니다. 사용자는 여러 기관(예: 의료 연구를 위한 병원, 사기 감지를 위한 은행)이 원시 정보를 노출하지 않고도 결합된 데이터로 공유 모델을 학습시킬 수 있는 플랫폼을 빌드할 수 있습니다. 이를 통해 협업을 촉진하고, 다양한 데이터 세트를 통해 모델 정확성을 높이며, 엄격한 규정 준수 요구사항을 충족할 수 있습니다.
사물 인터넷(IoT) 및 산업용 IoT(IIoT) 기기를 사용하는 사람들에게는 제휴 학습이 에지에 인텔리전스를 임베딩하는 강력한 방법을 제공합니다. 이를 통해 산업 장비의 예측 유지보수, 센서 네트워크의 이상 감지, 스마트 시티의 리소스 사용량 최적화와 같은 애플리케이션을 만들 수 있습니다. 모델은 에지 기기에서 직접 분산 센서와 기계에서 생성한 데이터를 학습할 수 있습니다. 이 접근 방식은 통신 오버헤드를 줄이고 실시간 인사이트를 제공하며, 민감한 운영 데이터를 안전한 공장 또는 기기 경계 내에 유지하여 독점 정보를 유지하는 데 필수적입니다.
사용자는 제휴 학습을 사용하여 분산된 민감한 데이터 세트에서 인사이트를 도출해야 하는 기업을 위한 강력한 데이터 분석 플랫폼을 빌드할 수 있습니다. 데이터를 중앙 집중화하지 않고도 분석 모델을 학습시키고 실행할 수 있도록 지원하여 GDPR, CCPA, HIPAA와 같은 규정 준수에 크게 도움이 됩니다. 이를 통해 조직은 엄격한 데이터 거버넌스 및 보안 프로토콜을 유지하면서 다양한 부서 또는 법인 전반에서 귀중한 비즈니스 인텔리전스를 얻고, 트렌드를 파악하고, 예측 모델을 빌드할 수 있습니다.
제휴 학습을 적용하면 더욱 복원력이 뛰어나고 효과적인 사이버 보안 솔루션을 빌드할 수 있습니다. 모델은 수많은 엔드포인트(예: 컴퓨터, 서버, 휴대기기)에서 학습하여 개별 시스템에서 민감한 정보를 유출하지 않고도 멀웨어를 감지하거나, 네트워크 침입을 식별하거나, 의심스러운 활동에 플래그를 지정할 수 있습니다. 이러한 분산형 학습 접근 방식은 개별 사용자 또는 시스템의 개인 정보 보호를 준수하면서도 더 광범위한 네트워크 행동과 로컬 보안 이벤트로부터 학습하여 보다 포괄적인 위협 감지 기능을 제공할 수 있습니다.
제휴 학습을 더 쉽게 사용할 수 있도록 여러 오픈소스 및 상용 프레임워크가 등장했습니다. 이러한 도구는 개발자에게 다양한 기기에서 학습을 처리하는 데 필요한 기능, 기기 간 통신 방법, 데이터를 비공개로 유지하는 방법을 제공합니다.
제휴 학습 분야는 빠르게 진화하고 있습니다. 현재 연구는 데이터 및 시스템 이질성에 대한 견고성 개선, 더욱 정교한 개인 정보 보호 기술 개발, 더욱 효율적인 통신 프로토콜 생성, 진정한 맞춤형 제휴 학습 경험 지원과 같은 과제를 해결하는 데 중점을 두고 있습니다. AI가 민감한 분야에 더욱 통합됨에 따라, 제휴 학습은 안전하고 비공개적이며 협업적인 인텔리전스를 지원하는 데 있어 더욱 중요한 역할을 할 것으로 보입니다. 현재는 중앙 서버가 많은 제휴 학습 시스템을 조정하고 있지만, 향후 개발에서는 더욱 진정한 분산형 또는 P2P 제휴 학습 접근 방식을 탐색하여 견고성과 확장성을 강화하고 단일 장애점을 제거할 가능성이 높습니다.
Google Cloud는 제휴 학습 시스템을 빌드하고 자체 제품에 제휴 학습을 활용하는 데 모두 사용할 수 있는 강력한 환경과 제휴 학습 이니셔티브를 지원하는 구체적인 도구를 제공합니다.