콘텐츠로 이동하기
고객 사례

Google Cloud로 제약 업계의 신속한 신약 개발을 지원하는 BenchSci

2021년 2월 19일
Craig Newell

Principal Engineer, BenchSci

Aaron Gabow

Director of Engineering, BenchSci

Google Cloud 사용해 보기

$300의 무료 크레딧과 20개 이상의 항상 무료인 제품으로 Google Cloud 사용을 시작해보세요.

무료 체험

* 본 아티클의 원문은 2021년 1월 20일 Google Cloud 블로그(영문)에 게재되었습니다.

모든 스타트업은 비록 목표에 도달하는 방법에 대해 100% 확신하지 못하더라도 원대한 목표를 가져야 합니다. 캐나다의 바이오테크 스타트업인 BenchSci는 과학자가 환자에게 신약을 제공하는 속도를 2025년까지 50% 높인다는 목표를 세우고 있습니다. BenchSci는 2015년에 설립된 이래로 공개 데이터 세트, 연구 자료, 독점 고객 데이터 세트 등 광범위한 카탈로그를 마이닝함으로써 과학자들이 보다 나은 실험을 계획할 수 있도록 돕는 플랫폼을 구축해 왔습니다. 이 플랫폼은 전적으로 Google Cloud를 기반으로 하며 Google Cloud의 다양하고 심층적인 기능을 통해 목표를 향해 나아갈 수 있었습니다.  

제약 R&D는 비효율적일 수 있으므로 BenchSci는 이러한 목표를 빨리 추진하고자 했습니다. 예로 임상전 연구를 살펴보면, 한 연구에 따르면 임상전 연구 비용의 절반 정도가 낭비되는 것으로 추정되는데, 이는 미국에서만 연간 282억 달러 규모이며 세계적으로는 486억 달러에 달합니다1. BenchSci의 추정에 의하면 임상전 연구 낭비의 36.1%가 과학자의 부적절한 시약(생명과학 실험에서 사용하는 항체 등의 물질) 사용에서 기인합니다. 

이에 따라 BenchSci는 첫 제품으로 AI 지원 시약 선택 도구를 만들었습니다. 이 도구는 관련 과학 논문과 시약 카탈로그를 수집하고, 수집된 데이터에 독점 머신러닝 모델을 적용하여 관련 데이터 포인트를 추출하며, 추출된 결과를 과학자들이 사용하기 쉬운 인터페이스를 통해 검색할 수 있게 해줍니다. 과학자는 기존 실험 증거를 바탕으로 특정 시약이 해당 실험에 적합한지 여부를 미리 빠르게 판단할 수 있으므로 실질적인 결과물을 낼 가능성이 가장 높은 실험에 집중할 수 있어 환자들에게 새로운 치료제를 더욱 빠르게 제공할 수 있습니다.

이 모든 과정이 바로 Google Cloud에서 이루어집니다. 먼저 논문, 자료, 제품 카탈로그, 의학 및 생물학 데이터베이스, 기타 데이터를 수집하여 Cloud Storage에 저장합니다. 그런 다음 Dataflow, BigQuery 등의 도구에서 구축한 파이프라인을 사용하여 데이터에서 유용한 정보를 정리 및 추출합니다. 다음으로 BenchSci의 머신러닝 알고리즘으로 데이터를 처리하고 그 결과를 Cloud SQL과 Cloud Storage에 저장합니다. 과학자는 Google Kubernetes Engine(GKE), Cloud Load Balancer, IAP(Identity-Aware Proxy), Cloud CDN, Cloud DNS, 기타 서비스에 구축된 웹 인터페이스를 통해 결과에 액세스할 수 있습니다. 마지막으로 여러 클라우드 프로젝트, IAM, 코드형 인프라를 사용하여 데이터 보안을 유지하고 각 고객을 격리된 상태로 유지합니다. 이렇게 함으로써 운영 하드웨어를 비롯하여 가장 전문화된 R&D 인프라를 제외한 일체의 것을 유지할 필요가 없어졌으며 관리 오버헤드도 크게 줄어들었습니다. 

또한 Google Cloud의 관리형 서비스와 손쉽게 확장 가능한 영구 컨테이너 및 VM을 함께 사용함으로써 최소한의 관리로 새 기능을 프로토타입으로 제작하고 테스트한 뒤 출시할 수 있게 되었습니다. 

BenchSci의 니즈에 따라 Google Cloud도 함께 확장했습니다. 3년 동안 BenchSci에서 분석하는 데이터의 양은 엄청나게 증가했으며 BigQuery 및 Cloud SQL 등으로 전환하면서 상당 부분의 운영 오버헤드가 사라졌습니다. BigQuery의 유연성 덕분에 텍스트 처리 ML 파이프라인의 주요 단계를 처리할 수 있었으며 Cloud SQL의 안정성 덕분에 원활한 데이터 액세스가 가능했습니다. 

시간이 지남에 따라 데이터 처리 파이프라인도 진화했습니다. 관리형 Hadoop 서비스인 Dataproc으로 시작했지만 결국에는 Apache Beam을 사용하는 Dataflow에서 이 시스템을 다시 작성했습니다. Dataflow를 통해 수백 테라바이트를 처리할 수 있으므로 기본 인프라 관리보다는 비즈니스 로직 구현에 집중할 수 있습니다.

최근 BenchSci는 비공개 데이터 세트를 지원하도록 플랫폼을 확장했습니다. 처음에는 모든 고객에게 동일한 기본 공개 데이터를 다양한 뷰로 제공했지만 시간이 지나자 일부 고객이 자신의 독점 약학 데이터를 BenchSci 시스템에 포함할 수 있는지 문의했습니다. BenchSci에서는 시스템 간에 프로젝트를 엄격하기 격리하는 멀티테넌트 시스템을 관리하는 대신 GKE와 Config Connector를 활용하여 고객 각각의 데이터에 맞는 고유한 환경을 제공하므로 팀에 대한 운영 관련 요구사항이 증가하지 않습니다.

요약하자면 Google Cloud 덕분에 컴퓨팅 인프라 및 서비스의 구축과 운영에 신경 쓰지 않고 문제 해결에 집중할 수 있었습니다. Google Cloud 기반 운영으로 BenchSci는 앞으로도 더욱 성장할 수 있을 거라는 자신감을 얻었습니다. 더 많은 양의 폭넓은 데이터 소스를 수집하고, ML 알고리즘으로 각 데이터 단위에서 더 많은 정보를 추출하며, 더욱 광범위하고 독점적인 데이터를 처리하고, 다양한 인터페이스 모음 및 액세스 포인트를 통해 광범위한 고객 니즈를 충족할 수 있기 때문입니다. BenchSci의 목표는 여전히 야심 차지만 Google Cloud와 함께라면 실현 가능하다고 생각합니다. 

Google Cloud 기반의 의료 및 생명과학 솔루션에 대해 자세히 알아보기


1. https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1002165

게시 위치