Kakao Healthcare logo

카카오헬스케어 : 대형 병원 의료 데이터를 안전하게 처리하고 학습해 가치를 높이는 ‘연합 학습’ 서비스 제공

Google Cloud 도입 효과
  • 의료 데이터의 외부 반출 없이 병원 간 대규모 데이터 협력을 통한 활용 가능

  • 안전하고 광범위한 데이터 연합 학습 환경 구축 및 기술 지원

카카오헬스케어는 대형병원들이 갖고 있는 의료 데이터를 더 쉽게 분석할 수 있는 데이터 플랫폼을 서비스하고 있습니다. 최근 카카오헬스케어는 데이터 플랫폼으로 구축된 각 병원의 데이터를 안전하게 학습할 수 있는 연합 학습(Federated Learning)을 통해 데이터의 활용성과 예측 정확도를 획기적으로 높였습니다.

건강을 다루는 헬스케어 데이터가 높은 가치를 갖고 있다는 것은 많은 사람들이 인정합니다. 특히 우리나라는 전자 의무 기록을 비롯한 의료 데이터의 전산화가 가장 잘 이뤄져 있는 국가입니다. 하지만 그 데이터들이 효과적으로 활용되고 새로운 가치를 만들어내는 것은 쉽지 않습니다. 의료와 헬스케어 데이터는 가장 민감한 데이터이기 때문에 관리가 까다롭고 공유나 분석 등에 대한 장벽이 높기 때문입니다.

카카오헬스케어는 이렇게 각 병원이 갖고 있는 데이터가 높은 가치를 창출할 수 있도록 하는 헬스케어 데이터 플랫폼을 만들고, 이를 대형 병원을 중심으로 서비스하고 있습니다.

카카오헬스케어는 의료 데이터 활용 플랫폼을 구축했습니다. 이를 통해서 데이터 분석이 쉬워졌고, 타 병원들과의 빠르고 안전한 협력 환경이 갖춰졌습니다. 기존에는 데이터 처리부터 활용, 관리에 대한 정책을 세우면서 2년 이상 걸리던 대규모 데이터 프로젝트가 2개월 만에 더 좋은 결과와 함께 이루어졌습니다. 병원이 더 많은 데이터 분석을 적극적으로 할 수 있는 플랫폼을 통해 더 나은 의료 환경을 만들고자 합니다.

카카오헬스케어 황희 대표

데이터로 의료 현장을 바꾸겠다는 의지에서 시작

현재 카카오헬스케어의 의료 데이터 플랫폼은 구글 클라우드의 데이터 솔루션을 바탕으로 국내 주요 대학병원, 대형병원 등에 도입되어 단순 적재가 아니라 분석과 활용으로 데이터가 세상의 빛을 볼 수 있도록 준비가 갖춰지고 있습니다.

카카오헬스케어의 다음 목표는 이러한 데이터들이 병원 내부에만 머무는 것이 아니라 병원 밖의 데이터와 합쳐져서 더 큰 가치를 만들어내는 데에 있습니다. 바로 구글 클라우드와 함께 하는 '연합 학습(Federated Learning)’입니다. 연합 학습이란, 개인정보, 기업정보처럼 예민한 데이터를 보호하기 위해 각자의 물리적인 환경에서 데이터를 저장 및 관리하면서도 인공지능 학습 결과를 서로 공유해서 더 큰 규모로 데이터를 해석할 수 있는 새로운 기술입니다.

"대학병원에서 CIO를 맡아 일하면서 의료 현장에서 생기는 수많은 데이터가 병원 관점에서 어떤 의미를 가질지에 대한 고민이 끊이지 않았습니다. 쉴 새 없이 쌓이는 데이터들이 환자 치료나 임상 실험, 교수들의 연구, 그리고 더 나아가 외부 기관과의 협업 등으로 적절히 활용되는 것이 필요합니다."

황희 카카오헬스케어 대표는 20여 년 동안 의료 현장에서 경험한 데이터 활용의 부족함을 기술로 풀어내겠다는 목표로 카카오헬스케어의 비즈니스를 만들어가고 있습니다. 황희 대표의 입장에서는 데이터를 바라보는 시선이 달라진 셈입니다. 기존에는 병원 내부, 그리고 단일 병원에 대한 고민이었다면 지금은 여러 병원들이 만들어내는 더 큰 데이터 환경을 바라보게 된 것입니다.

카카오헬스케어의 인공지능 기반 연합 학습 플랫폼이 탄생하게 된 배경도 바로 데이터를 바라보는 규모가 달라졌기 때문입니다. 우리나라는 기본적으로 의료 정보의 디지털화가 잘 되어 있고, 이를 체계적으로 관리하는 환경도 갖춰져 있습니다.

연합 학습(Federated Learning)은 구글이 2017년에 처음 제시한 개념입니다. 일반적으로 인공지능의 핵심인 모델을 학습시키려면 모든 데이터를 한곳에 모아 학습시킬 수 있는 컴퓨팅 자원이 필요합니다. 다양한 데이터가 오랫동안 학습될수록 더 정교한 학습 결과를 내기 때문에 때로는 흩어져 있는 비슷한 역할의 데이터를 모아서 학습시키기도 합니다. 하지만 보안이나 자산 가치 등의 이유로 데이터 셋이 외부로 흘러나가는 것을 원하지 않는 경우도 많습니다.

의료 데이터도 마찬가지입니다. 이런 경우에 데이터를 한곳에 모으는 것이 아니라 물리적으로 데이터를 갖고 있는 각자의 컴퓨팅 환경에서 인공지능 모델을 내려받아 학습을 하고 그 결과를 다시 모으면 데이터가 외부로 반출되지 않으면서도 대규모의 학습이 이루어질 수 있습니다. 중앙에서는 이를 다른 모델과 대조해 고도화하고 균일화하면서 더 나은 인공지능 모델을 완성하게 됩니다.

병원마다 데이터가 잘 정리되어 있다면 이를 한곳으로 모아서 분석하면 엄청난 규모의 임상 데이터 결과를 얻을 수 있습니다. 카카오헬스케어는 이를 안전하고 쉽게, 그리고 체계적으로 분석할 수 있는 연합 학습 플랫폼을 배포해 2024년 7월 기준으로 국내 16개 병원이 참여하는 대규모 데이터 공동체를 구축했습니다.

카카오헬스케어 황희 대표

The new way to personalize healthcare for everyone

병원 데이터 권리 지키며 대규모 데이터 성과 얻어내는 연합 학습

이렇게 여러 데이터의 주체가 연합해서 하나의 인공지능 모델을 학습하고 그 결과물을 함께 활용하는 것이 연합 학습의 기본 개념입니다. 구글 클라우드는 이 개념을 GKE(Google Kubernetes Engine)에 포함시켰고, 각 병원이 약속된 데이터 셋을 바탕으로 거대한 학습 연합을 만들고 운영할 수 있는 환경을 구축했습니다. 그리고 카카오헬스케어는 이를 바탕으로 의료 데이터를 적절한 데이터 셋으로 가공하고, 연합 학습이 안전하고 매끄럽게 이뤄질 수 있도록 헬스케어 데이터 플랫폼과 연합 학습 환경을 개발해 대한민국의 대형 병원에 공급하고 있습니다.

연합 학습으로 여러 병원의 데이터가 통합 분석되는 것은 이상적인 이야기지만 실제 현장에서는 몇 가지 걸림돌이 있습니다. 먼저 데이터의 통일성입니다. 병원들은 각자의 방법으로 데이터를 관리하기 때문에 그 형태부터 저장, 분석 방법이 모두 다릅니다. 또한 모든 데이터들이 저장과 분석에 최적화되어 있지 않습니다.

체온, 혈압 측정이나 혈액 검사 결과처럼 누구나 똑같이 이해할 수 있는 데이터도 있지만, 그렇지 않은 경우가 더 많습니다. MRI 영상판독이나 조직 검사 판독, 또는 의사들의 진료 기록 등은 각 병원마다 모두 다르게 관리됩니다. 정형화된 데이터라고 해도 병원마다 질병을 다루는 코드가 다를 수도 있습니다.

또한, 병원은 애초의 데이터 활용에 대한 걱정처럼, 연합 학습을 위한 데이터가 클라우드에 등록되면 다른 기관에서 쓰일 수 있다는 점에 대해 우려를 할 수밖에 없습니다. 데이터는 환자들이 병원을 믿고 맡긴 개인 정보일 뿐 아니라 병원 입장에서는 연구와 더 나은 진료를 위한 중요한 경험 자산이기 때문에, 연합 학습을 통해 더 나은 분석 결과를 얻어낸다고 해도 이 데이터를 외부에 제공하면 어떻게 쓰일지, 또 활용 이후에는 적절히 폐기가 될지에 대한 걱정을 할 수 있습니다. 구글의 연합 학습 보안 고려 사항(Federated Learning Security Consideration)은 이를 풀어내는 가장 좋은 방법이라는 것이 황희 대표의 설명입니다.

"분석에 필요한 데이터는 구글 클라우드로 구축된 카카오헬스케어의 데이터 플랫폼에 보관됩니다. 데이터는 무차별적으로 올라가는 것이 아니라 각자의 영역에서 직접 통제되고, 그 내용에 대해서는 다른 누구도 접근할 수 없습니다. 그리고 데이터는 각 병원의 클라우드 안에서만 철저히 관리됩니다. 연합 학습 과정에서도 미리 연구된 연구 분석용 머신러닝 모델이 배포되면, 그 모델이 각 병원의 데이터를 분석해 그 결과만을 전송합니다."

프로젝트에 참여하는 것도 병원이 결정할 수 있는 권리입니다. 어떤 프로젝트가 제안되면 이 프로젝트에 참여할 병원을 모집해서 해당 병원의 데이터만이 분석 대상이 되고, 그 결과물에 대해서도 참여한 병원만이 활용할 수 있는 권리를 갖게 됩니다.

연합 학습이 안전하고 원활하게, 그리고 엄격한 보안 및 액세스 제어와 함께 수행될 수 있는 이유 중 하나는 GKE를 활용하기 때문입니다. GKE는 다음을 포함하여 연합 학습을 용이하게 하는 여러 기능을 제공합니다.

  • 연합 학습 코디네이터 호스팅
  • 연합 학습 참여자 호스팅
  • 안전하고 확장 가능한 통신 채널 제공
  • 연합 배포의 라이프사이클 유지 관리

데이터 수집 및 분석부터 특정 결과 추출에 이르기까지 모든 프로세스는 GKE 환경 내에서 관리됩니다. 이를 통해 사용 편의성을 유지하면서 안전한 데이터 저장이 가능합니다. Google Cloud 연합 학습 참조 아키텍처는 연합 학습 프레임워크의 일부로 GKE를 사용하는 데 적용할 수 있는 보안 제어를 나열합니다.

데이터의 적재와 안전한 관리, 그리고 편리한 활용이 이루어질 수 있다 보니 병원들도 오랫동안 기대해 온 데이터 중심의 진료, 연구, 그리고 운영이 이루어질 수 있다는 기대감이 큽니다. 카카오헬스케어와 함께 하는 병원이 빠르게 늘어나고 있고, 2024년 말까지 약 20개 내외의 병원이 카카오헬스케어의 데이터 플랫폼과 연합 학습에 참여할 계획이며, 20개 병원의 데이터는 약 1만 5000개의 병상과 2000만 명의 진료 데이터를 포괄합니다.

Help people, healthcare providers and society
카카오헬스케어는 각 병원들의 기존 진료 및 업무 환경에 영향을 끼치지 않으면서도 데이터가 정형화되고 통일성을 가지면서 저장되는 데이터 플랫폼을 구축했습니다. 물론 이 데이터는 카카오헬스케어나 다른 병원이 접근할 수 없고, 각 병원이 필요에 따라 직접 다양하게 활용할 수 있습니다. 이는 연합 학습이라는 목표를 달성하는 것일 뿐 아니라, 개별 병원의 데이터를 체계화하고 각자의 데이터에서 가치를 뽑아내는 디지털 트랜스포메이션의 기틀이 되기도 합니다.

카카오헬스케어 황희 대표

현장에서 확인되는 연합 학습, 데이터의 가치

카카오헬스케어와 병원 연합체는 현재 두 가지 연합 학습 프로젝트를 진행하고 있습니다. 첫 번째는 유방암 환자의 재발 가능성을 예측한 연구로서, 실제 학습에는 4개 병원의 약 1.5만 명, 검증에는 1개 병원 약 1만 명 등 총 2만 5천 명 수준의 대규모 분석이 이루어졌습니다.

"일반적으로 이 정도 규모의 데이터 분석은 데이터 전처리, 적절성 판단 등 수많은 절차를 거쳐 수집이 이루어지고, 실제 분석 단계에서도 직접 손봐야 할 것들이 많아서 2년 이상 걸리는 작업입니다. 하지만 카카오헬스케어의 연합 학습은 준비부터 결과가 나오는 시점까지 4개월이면 충분했습니다. 그러면서도 각 병원의 제한된 데이터 수로 수행하는 것보다 훨씬 좋은 예측 결과치를 냈습니다."

황희 대표는 연합 학습이 테스트 단계에서부터 놀랄 만한 결과를 얻어내고 있다고 설명합니다. 데이터의 양이 늘어나는 만큼 데이터의 정확도와 신뢰도가 높아졌고, 기존에 병원 내부의 데이터만으로 수행하던 연구보다 더 의미 있는 결과들이 나오고 있기 때문입니다.

참여한 병원별로 예측 성능은 0.6397부터 0.8362까지 다양했으나, 연합 학습의 결과는 이를 모두 상회하는 0.8482로 나타났습니다. 학습에 전혀 사용되지 않은 외부 검증 데이터를 기반으로 성능을 확인한 결과 0.7769로, 연합 학습 결과의 92% 수준의 준수한 성능을 보였습니다. 실제 연구에 참여한 각 병원의 연구진은 이와 같은 연합 학습의 뛰어난 성능과 결과에 놀라움을 감추지 못하였습니다.

Bar graph diagram

카카오헬스케어와 연합 학습 참여 병원들은 연구의 범위를 확장해서 더 많은 병원들과 심층적인 연구를 이어가고, 연합 학습을 바탕으로 한 각 연구에 대한 논문도 발표할 계획입니다. 이 외에도 유방암에 대한 후속 프로젝트도 진행 중입니다. 병원들의 연합이 지속적으로 확장되는 단계에서, 각 병원의 데이터는 분석을 위한 정형화가 완료됐고, 이제는 다양한 연구를 고민하고 있습니다.

병원의 데이터를 다루는 부서들도 관심이 매우 높습니다. 카카오헬스케어의 데이터 플랫폼은 연합 학습뿐 아니라 병원 내의 정보를 관리하기에도 효과적이기 때문입니다. 최근 병원 내부에서는 진료 체계나 병실 관리 및 운영 등에 대한 디지털 트랜스포메이션이 활발하게 이루어지고 있습니다. 이를 위한 데이터 처리를 위해 신규 시스템을 구축하는 경우들이 있는데, 이와 관련하여 카카오헬스케어는 병원이 관심 있어 하는 100여 종의 데이터를 제공합니다.

카카오헬스케어의 데이터 플랫폼은 병원 내에서 이루어지는 다양한 연구 활동에도 활용됩니다. 최근의 연구는 머신러닝을 통한 분석이 반드시 따라붙는데 카카오헬스케어의 데이터 플랫폼으로 정리된 데이터 셋은 처음부터 인공지능 학습을 염두하였기 때문에 개별 연구에도 더 효과적입니다. 적절한 모델을 Vertex AI에 올리기만 하면, 별도의 컴퓨팅 자원이나 워크플로우에 대한 고민 없이 분석을 시작할 수 있습니다.

"연합 학습이 필요한 또 하나의 분야는 바로 신약 개발입니다. 제약사들은 더 나은 약을 만들어내기 위해 환자들의 치료 과정에 대한 상세한 분석을 필요로 합니다. 또한 오랜 기간 동안 반복되는 임상 실험에서 신약의 효과와 안정성이 동시에 검증되어야 합니다. 연합 학습을 통한 분석을 통해 기존 약에 대한 효과를 읽어낼 수 있을 뿐 아니라, 각 병원을 통한 최종 단계의 임상 실험에 대한 결과를 광범위하게 확인할 수 있습니다."

일반적으로 임상 실험의 대상자는 제한될 수밖에 없습니다. 하지만 여러 병원을 통해 데이터가 모이면 데이터가 말하는 이야기는 크게 달라집니다. 병원은 직접 신약 개발에 기여하면서, 더 나아가 데이터를 통해 2차적인 수익을 창출할 수 있습니다. 데이터의 또 다른 가치가 드러나는 예입니다.

데이터와 인공지능은 지금까지와는 전혀 다른 의료 환경을 만들어내고 있습니다. 인공지능은 더 세밀하게 건강을 관리하고, 더 나은 진료 환경을 만듭니다. 황희 대표는 구글 클라우드와 함께 해 온 지난 2년여간의 의료용 연합 학습 플랫폼의 협력과 노력이 데이터 중심의 의료 환경을 현실로 만들 수 있었던 큰 원동력이라고 말합니다.

"구글은 카카오헬스케어가 연합 학습을 이끌어내는 여정에서의 가장 중요한 파트너입니다. 구글은 연합 학습에 대한 기술을 먼저 제안했고, 기술적인 지원도 끊임없이 제공했습니다. 이 뿐만 아니라 연합 학습이 의료 분야에서 성공을 거둘 수 있도록 카카오헬스케어와 구글은 적극적으로 함께 하고 있습니다."

카카오헬스케어와 구글 클라우드는 지금도 연합 학습에 대한 진행 상황에 관심을 기울이고 더 나은 방향을 함께 고민합니다. 황희 대표는 단순히 클라우드 서비스가 얼마나 필요하고, GPU 자원이 어떤지에 대한 접근이 아니라 얼마나 의미 있는 일을 만드는 것에 대해 두 회사가 공감하는 것이 중요하다고 강조합니다. 국내의 사례를 성공시키고 이를 토대로 글로벌 의료 환경으로 그 범위를 함께 넓히며 더 나은 의료 데이터 환경을 만드는 파트너십이 이제 본격적으로 시작되고 있습니다.

Providing sincere care for the population
의료 데이터를 이용한 예측 모델의 개발이 개별 병원과 연구자 선에서 이루어지고는 있지만, 타 기관에서의 검증 및 성능 평가가 쉽지 않다는 한계점이 있었습니다. 연구를 시작할 때에는 분산된 데이터 자체를 보호하면서도 다기관에 축적된 의료 데이터를 효과적으로 학습하여 협업 모델을 생성하는 연합 학습이 과연 가능할 것인지에 대한 의구심이 있었습니다. 그러나 카카오헬스케어와의 협력 연구를 통해 이것이 실현 가능하다는 것을 분명히 알게 되었고, 앞으로의 미래 의료 데이터 연구가 나아갈 길이 바로 여기에 있다는 것을 확신하게 되었습니다. 더욱 많은 연구와 훌륭한 성과들이 연합 학습을 통해 만들어질 것이고, 이 과정에서 카카오헬스케어가 선도적인 역할을 할 것이라 생각합니다.

고려대학교 안암 병원 송성은 교수

카카오헬스케어와 함께 구축한 데이터 플랫폼을 이용한 연합 학습은 놀라웠습니다. 여러 기관의 신뢰로 만들어진 데이터 얼라이언스의 기틀과 이미 체계적으로 구축된 방대한 양의 표준화된 의료 데이터 시스템을 통해 경험할 수 있었던 군더더기 없는 행정처리와 신속한 데이터 처리, 그리고 쉽고 직관적인 연합 학습 과정의 경험은 대단히 인상적이었습니다. 데이터 플랫폼이 아니라면 경험하기 어려웠을 뿐 아니라, 짧은 시간 내에 원하는 결과를 얻기도 어려웠을 것이라는 사실은 자명합니다. 참여기관의 확대와 지속적인 고품질 데이터 축적을 통해 우리가 상상하는 그 이상의 활용과 훌륭한 결과물 도출을 믿어 의심치 않습니다.

이화의료원 조도상 교수

카카오헬스케어

카카오헬스케어는 기술로 사람을 건강하게 한다는 목표로 디지털 헬스케어 서비스를 개발, 운영하고 있습니다. 기존 헬스케어 서비스의 한계를 기술로 극복해 누구나 손쉽게 기술 기반의 건강 관리가 가능한 서비스를 만들고자 합니다. 이를 위해 의료 데이터 플랫폼부터 병원 예약 솔루션, 당뇨 관리 서비스 등을 운영하고 있습니다.

산업 분야:  HCLS (Healthcare and Life Sciences)

위치: 대한민국

사용된 제품 : Federated Learning, AlloyDB


Google Cloud 파트너 정보:메가존소프트

메가존소프트

메가존소프트는 2009년부터 국내 최초 Google 공식 파트너사로 선정된 클라우드 비즈니스 전문 MSP 파트너사로, 1998년 설립 이후 축적된 비즈니스 경험과 노하우를 플랫폼 서비스, 디지털 서비스, 디지털 마케팅 3가지 사업분야를 통해 그 가치를 전달하고 있습니다. 

5,000개 이상의 기업 고객을 대상으로 호스팅, ITSM System 구출 운영 및 도메인 서비스들을 제공하는 등 선도적인 글로벌 솔루션과 합리적이고 최적화된 서비스를 제공하고 있습니다.

Google Cloud 파트너
  • Megazone Soft logo
Google Cloud