콘텐츠로 이동하기
의료 및 생명과학

Lumiata, Google Cloud로 의료 업계 내 AI 대중화 실현

2021년 7월 6일
Miguel Alvarado

CTO, Lumiata

Bryn Waibel

Director of Engineering, Lumiata

Google Cloud 사용해 보기

$300의 무료 크레딧과 20개 이상의 항상 무료인 제품으로 Google Cloud 사용을 시작해보세요.

무료 체험

* 본 아티클의 원문은 2021년 4월 21일 Google Cloud 블로그(영문)에 게재되었습니다.   

편집자 주: 이번 게시글은 의료용 AI 플랫폼인 Lumiata에 관한 내용입니다. Lumiata에서 어떻게 Google Cloud 기반 플랫폼으로 데이터 준비, 모델 빌드, 배포를 수행하여 의료 기관 고유의 과제를 해결하고 있는지 소개합니다. 

의료 혁신을 위한 적기가 있다면 2020년이 바로 그런 해였습니다. Lumiata는 2013년부터 보다 스마트하고 비용 효율적인 의료 서비스를 제공한다는 사명을 실천해 왔습니다. 하지만 코로나19 팬데믹으로 인해 인공지능(AI)을 쉽고 접근 가능하게 만든다는 비전을 시급하게 실현할 필요성이 새로 생겼습니다. 의료 조직에서 사용하면 좋은 기술 정도였던 AI가 이제는 필수적으로 갖춰야 할 요소로 바뀌었습니다. 만성질환이나 동반질환으로 인해 입원해야 할 가능성이 높은 집단을 식별할 수 있다면 위험에 대한 계획 또는 평가가 얼마나 달라질지 상상해 보세요.  

Lumiata AI Platform은 의료 기관에서 예측 분석 기능을 직접 빌드할 필요 없이 AI를 사용해 의료 품질을 개선하고 위험을 최소화하며 비용을 절감하도록 도와줍니다. Lumiata는 의료 기관에서 최신 기술을 활용해 대량의 데이터에서 유용한 정보를 도출하고 궁극적으로 환자에게 더 나은 진료를 제공할 수 있도록 지원하고 있습니다. 

AI 우선 접근 방식을 취하는 Lumiata는 변화하는 고객 니즈를 충족하기 위해 새로운 시도를 감행했으며 Google Cloud 인프라를 통해 솔루션을 신속하게 실험하고 개발할 수 있습니다(AI 제공을 위해 Google Cloud를 선택한 이유를 다룬 이전 게시글 참조). 

고객이 원하는 것: 속도와 접근성이 우수한 AI

AI는 무한대에 가까운 수의 실용적인 애플리케이션으로 의료 기관에 막대한 기회를 제공합니다. AI는 스위치만 켜면 작동하는 솔루션이 아닙니다. 적절하고 목적에 맞게 빌드된 솔루션을 구현해야만 데이터에서 정확하고 유용한 정보를 도출할 수 있습니다. 

의료 업계에서 AI는 차세대 기술이지만 혁신이 더디게 이루어지는 경우도 있습니다. Lumiata의 도움을 받고 있지 않은 많은 조직이 해결해야 할 문제를 파악했음에도 불구하고 데이터 준비에서 모델 빌드 및 배포에 이르기까지 AI 운영에 어려움을 겪고 있습니다. 수준 높은 데이터 과학팀을 구성하는 것만으로는 부족합니다. 프로젝트를 배포하려면 속도, 유연성, 복원력이 우수한 인프라를 마련해야 합니다. 의료 AI 프로젝트는 종종 고차원 데이터의 복잡성, 이를 단순화하는 데 필요한 작업, 엔지니어링팀에서 AI를 제품화하는 데 필요한 작업에 대한 이해 부족으로 인해 난항을 겪습니다. 또한 성공을 위해 필요한 변화를 설득하기 어려울 때도 많습니다.

더군다나 의료 기관은 약속한 결과를 제공하기 위한 지속적 개선과 피드백 루프가 결여된 폭포수(Waterfall) 모델로 기술을 구축하고 있습니다. AI의 투자 가치를 빠르게 입증하지 못한다면 시작하기도 전에 많은 프로젝트가 실패하고 말 것입니다.

Lumiata는 바로 이러한 문제를 해결해 줍니다. 고객이 몇 주 내로 빠른 쿼리와 정확한 AI 및 ML 기반 예측을 수행할 수 있는 역량을 갖추도록 돕는 것을 목표로 삼고 있습니다. AI 기반 통계와 예측을 생성하기에 충분한 의료 데이터가 확보되어 있으나 기존 시스템에 갇혀 활용되지 못하는 경우가 많습니다. 또한 모든 요소를 직접 구축할 수 있는 리소스를 가지고 있지 않은 조직도 많습니다. Lumiata는 큰 부담 없이 머신러닝을 활용하길 원하는 의료 기업에 코딩이 거의 필요 없는 Google Cloud 기반의 데이터 모델링 도구와 솔루션이 포함된 예측 제품을 제공하고 있습니다. 이 제품을 사용하면 조직은 이러한 기능을 자체적으로 구현할 팀이 없더라도 모델을 시작하고 실행할 수 있는 역량을 갖추게 됩니다. 

Google Cloud를 선택한 이유는 보안 인프라, 직관적인 AI 도구, 멀티 클라우드 애플리케이션 관리 기술 때문이었습니다. Google의 서버리스 데이터 웨어하우스인 BigQuery를 사용하면 방대한 양의 데이터에 액세스할 수 있습니다. Google Cloud DataflowApache Beam을 사용해 데이터 수집 및 추출 프로세스를 구축하여 이질적인 환자 기록과 데이터 세트를 조인하고 정규화하고 있습니다. 전체 시스템이 Google Kubernetes Engine을 기반으로 빌드되어 인프라 요구사항에 맞게 빠르게 확장할 수 있으며 Kubeflow가 머신러닝 파이프라인의 개발과 제공을 도와줍니다. 

또한 Google Cloud의 완전 관리형 서비스 덕분에 인프라 구축 및 운영에 대해 고민할 필요가 없습니다. 대신 고객을 위한 업무와 고객의 데이터 니즈를 처리하는 데 리소스를 투자하고 있습니다. 

Lumiata가 고객에게 AI 솔루션을 제공하는 데 있어 일반적인 ML 빌드 프로세스 단계별로 Google Cloud가 어떤 도움을 주는지 살펴보겠습니다.

1.원시 입력부터 360도 보기에 이르는 데이터 준비

의료 기관은 상호 운용성이 부족한 정보 데이터 사일로 때문에 사용 가능한 데이터와 통계의 총량을 제대로 파악하지 못하는 경우가 많습니다. 모든 개인의 건강 기록에 대한 포괄적인 종단적 개인 레코드(LPR)를 보유한 기업이 거의 없는 실정입니다. 

머신러닝과 관련해서는 대부분의 시간을 데이터 정리 및 준비에 사용하고 있습니다. 이는 속도가 더디고 무척 많은 시간이 걸리는 작업입니다. 또한 빠르게 작업을 처리해야 하지만 온프레미스 환경에서 작업하면 충분한 탄력성을 얻지 못합니다. 클라우드만이 AI용 데이터 준비를 지원할 용량을 확보하고 있습니다. 

그래서 Lumiata는 정리되지 않은 원시 데이터를 가져와 머신러닝용으로 완벽하게 준비된 데이터로 변환해 주는 데이터 준비 프로세스를 만들었습니다. 데이터 관리 파이프라인이 환자의 이질적인 원시 데이터 세트를 수집하여 Lumiata Person360 레코드로 변환합니다. BigQuery와 Dataflow를 사용해 원시 데이터 덤프를 수집하고 기존 또는 합성된 식별자와 연결하며 약물, 수술, 진단 코드, 검사 결과를 바탕으로 검증, 정리, 정규화합니다. 이후 데이터를 단일 개인 레코드와 연결하고 해당 레코드와 관련된 질병 코드로 태그를 지정합니다. 

Lumiata의 자동화된 파이프라인을 통해 매우 빠른 속도로 데이터를 가져오며 Google Cloud의 확장성 덕분에 방대한 양의 데이터 세트도 원활하게 처리할 수 있습니다. 예를 들어 6,300만 개의 개인 레코드(약 2.5테라바이트의 데이터)를 가져와 전체 데이터 관리 파이프라인을 통해 실행하는 데 4시간이 채 안 걸렸습니다. 

의료 기관에서는 보호 건강 정보를 다루고 건강 보험 이동성 및 책임법(HIPAA) 규정을 준수해야 하므로 Lumiata에서는 항상 최고 수준의 보안과 규정 준수를 반드시 갖추어야 합니다. 이를 위해 전체 플랫폼의 단일 테넌트 인스턴스를 자체 Kubernetes, 네트워킹, 버킷, BigQuery 테이블, 서비스가 포함된 자체 Google Cloud Platform 프로젝트로 배포하고 있습니다. 

2.데이터 모델 학습 부담 해소

모델을 빌드하는 데 있어 가장 어려운 문제는 다양한 데이터 소스에 대한 투명한 액세스를 지원하는 인프라를 개발하는 것입니다. 인프라 설정에는 시간과 리소스가 필요하며 광범위한 데이터 표현, 아키텍처, 데이터 품질을 관리하는 방식을 결정할 때 복잡성이 생겨나는 경우도 많습니다. 분석해야 할 데이터가 증가할수록 ML 파이프라인도 계속 확장되어야 한다는 점에서 복잡성이 한층 더 가중됩니다. Lumiata는 궁극적으로 고객이 기본 인프라에 대해 염려하지 않기를 바랍니다. 

Kubernetes와 Kubeflow를 사용해 방대한 양의 데이터 세트를 지원할 수 있는 확장형 ML 파이프라인과 딥 러닝 아키텍처를 구축하고 있습니다. Lumiata 플랫폼은 Person360 환자 레코드로부터 수백만 개의 입력 변수(머신러닝 특성)를 도출하여 이를 1억 1,000만 개에 달하는 자체적인 내부 구성원 데이터 애셋과 조합합니다. 이렇게 얻은 데이터를 복잡한 데이터 모델 학습에 사용하여 비용, 위험, 발병, 의료 사고를 예측합니다.

또한 Google AI Platform 덕분에 1억 2,000만 개의 레코드에서 도출한 대규모 학습 데이터 세트를 사용해 손쉽고 빠르게 실험을 수행할 수 있게 되었습니다. 예를 들어 보다 전통적인 머신러닝(그래디언트 부스티드 결정 트리 등)에서 벗어나 140개가 넘는 질병에 대한 다중 예측이 가능하고 특정 시간 차원에 걸쳐 분석할 수 있는 대규모 딥 러닝 모델로 전환했습니다. 

고객이 플랫폼에 데이터를 입력하여 첫 데이터 세트가 생성될 때까지의 속도에 그 실질적인 가치가 있습니다. 자동화된 머신러닝 파이프라인을 사용하면 첫 출력을 얻는 데 걸리는 시간이 몇 개월에서 몇 주로 단축됩니다. 예를 들어 1,100만 명이 포함된 특성 매트릭스로 모델을 학습시키는 데 걸리는 시간은 2시간 미만입니다. 분산 학습을 위해 인프라를 설정할 필요도 없어 시간이 낭비되지 않습니다.  

3.프로덕션에 모델 배포 및 제공

복잡한 ML 모델의 제품화에는 많은 과제가 따릅니다. 모델을 학습시키고 배포 준비를 마친 후 조직의 새로운 사용 사례나 요구사항에 맞춰 모델 배포를 확장할 경우 일관성을 유지하기 어려울 수 있습니다. 

Lumiata의 데이터 과학 및 머신러닝 엔지니어링팀에서는 Google AI Platform을 사용해 오프라인 실험(Kubeflow 외부)을 실행하기 때문에 팀원 한 명이 하루에 여러 실험을 진행할 수 있습니다. 제대로 작동하는 모델이 마련되면 Kubeflow에 배포하기 전에 학습 파이프라인, 선행 학습된 모델, 추론 파이프라인에 버전을 지정합니다. Lumiata AI Platform에서는 서버리스 분산 학습을 이용할 수 있어 데이터 과학자가 한 주에 더 많은 모델을 학습시킬 수 있으며 BERT 기반 딥 러닝 모델을 사용해 보다 신속한 진행이 가능합니다. 

Kubernetes 및 Kubeflow를 기반으로 구축한 덕분에 고객에게 모델을 배포하고 제공할 수 있는 신속하고 확장 가능한 경로를 확보했습니다. Kubeflow의 재사용 가능한 구성요소 덕분에 처음부터 빌드할 필요 없이 확장할 수 있습니다. 모델 학습의 미묘한 차이, 미세 조정, 배포를 걱정할 필요가 없으며 고객이 데이터만 업로드하면 예측을 얻을 수 있습니다. 

프로덕션에서 ML 및 AI 실행

AI 구현 간소화의 실질적인 효과는 아직 발견되지 않은 개선 가능성을 찾을 수 있다는 데 있습니다. 

예를 들어 최근에는 약국 방문 데이터를 활용해 만성질환 관리를 개선하는 AI 기반 개입 도구인 Pharmacy Intelligence를 출시했습니다. 캐나다의 소매 약국 체인인 FGC Health와 제휴하여 치료 부족으로 인해 심혈관 합병증이 발병할 가능성이 있는 당뇨병 환자의 식별을 도왔습니다. 이 도구는 전문의 방문, 약물 용량 적정 또는 기존 약물 요법 조정과 같은 간단하고도 실행 가능한 개입을 추천합니다. AI를 사용해 일반적인 치료 부족 문제를 해결하는 것이 생명을 살리는 데 얼마나 효과적인지 잘 보여주는 사례입니다. 

Lumiata는 Google Cloud가 자사 플랫폼의 핵심으로서 혁신 속도를 앞당겨 준다고 생각합니다. 이를 통해 보험금 청구액 무결성, 입원 및 재입원 예측, 맞춤 진료를 위한 질환 진행 지문 식별 등 새롭고 흥미로운 문제의 해결책을 제공하고 있습니다. 또한 의료 기관이 이미 보유하고 있는 정보를 새로운 방식으로 차세대 환자 치료에 활용하여 더 스마트하고 강력하며 효과적인 서비스를 제공하도록 돕고 있습니다. 

게시 위치