コンテンツに移動
データベース

Cloud SQL で科学的研究を加速させたブロード研究所

2022年5月6日
https://storage.googleapis.com/gweb-cloudblog-publish/images/broad.max-2600x2600.jpg
Google Cloud Japan Team

※この投稿は米国時間 2022 年 4 月 14 日に、Google Cloud blog に投稿されたものの抄訳です。

編集者注: MIT・ハーバード大学ブロード研究所は、ゲノムを扱うソフトウェアの開発を行う非営利の生物医学研究組織であり、最新の科学的知見を取り入れることを必要としています。ここでは同研究所が Google Cloud のマネージド データベースを利用して、関係分野の動向に素早く対応し、最先端に居続けている様子が紹介されています。


MIT・ハーバード大学ブロード研究所は、人間が罹患する疾病に対する理解と治療を前進させることに活動の中心を置く非営利の生物医学研究組織です。主な取り組みの一つは、ゲノムを扱うツールを開発し、科学的分野のエコシステムに普及させることです。発見は次々と行われるので、データ サイエンス チームは、私たちが開発するソフトウェア プロダクトで最善の研究が行えるようにするために、最新の動向に対応し続ける必要があります。素早く動けることが決定的に重要なのです。今回のパンデミックで重点を変更し、COVID-19(新型コロナウイルス感染症)の検査を開発し、その処理を何千万回も行うことになった際にも、スピードが鍵となりました。Google Cloud で提供されるフルマネージド データベース サービスとアナリティクスが、開発の加速に役立ちました。

ゲノム インサイトを Cloud SQL で加速

Google Cloud のサービスを使用した主要プロダクトの一つが Terra です。これは生物医学研究を目的とした、安全でスケーラブルな、オープンソースのプラットフォームです。Microsoft および Verily と共同で開発したもので、一般に公開されているデータセットへのアクセス、保有する非公開データの管理、研究の統括、他者との共同作業を行う研究者を支援することを目的としています。Google Cloud とは長い関わり合いがあったので、Terra のコントロール プレーンに Google Cloud のサービスを活用することは、私たちにとって自然なことでした。

バックエンドには、PostgreSQL および MySQL 向けの Cloud SQLFirestore など、複数のクラウド サービスを使用して、ユーザーがさまざまなデータアセット、手法、研究結果を利用できるようにするとともに、Terra のコントロール プレーンを強化しています。Cloud SQL は、2 つの主要分野で開発の加速に貢献しています。第一に、こうしたデータベース サービスは短時間で稼働を開始できます。ボトルネックになるかもしれないような一元化されたシステムにアクセスする必要はありません。第二に、Cloud SQL を使うことで、作業負荷が軽減されます。担当開発者の数を減らしつつ、マネージド サービスの運用を維持し、良いパフォーマンスを得ることができます。代わりに開発チームは、ユーザーが使う新たな機能の開発に集中できます。

Video Thumbnail

クラウドのコストを BigQuery アナリティクスで最適化

私たちが行うゲノム解析では、多くの場合 BigQueryCompute EngineDataproc を使用していますが、そうした研究に要するコストの詳細を理解することは困難でした。支払い請求のデータを BigQuery にエクスポートすることはできても、そのコストは、実施されている個別の解析作業に紐付けられていません。しかし、使用したクラウド リソースごとに支払い請求ラベルを付け、その情報を Cloud SQL のリレーショナル データベースに登録されている詳細メタデータと結合することで、驚くほどきめ細かいコスト情報が得られます。その結果、たとえばある研究者に対して、ある具体的な解析、研究プロジェクト、あるいはサンプルの一部として、仮想マシンに 17 セントの費用がかかったと告げることができるようになります。そうした詳しい情報を得ることで、研究者はコストを具体的に把握できるようになり、重点的に最適化を行うべき部分を決めることができるようになるのです。

COVID-19 検査の処理に重点を移行

地球規模のパンデミックが発生した際、ブロード研究所は自主的に、臨床用の検査および診断に使用する設備を、公衆衛生のニーズに使用できるようにしました。当研究所では、COVID-19 検査の処理を行うスケーラブルなモジュール型の高スループット自動システムを、マサチューセッツ州およびその周辺で生じる公衆衛生のニーズに応じるために新規作成しました。パンデミックが発生してから最初の数か月間で、ブロード研究所は米国で行われる PCR 検査の 10 パーセント以上を処理し、これまでに 3,000 万件以上の検査の処理を行ってきています。処理時間は 24 時間未満です。Cloud SQL for PostgreSQL のデータベースを中核に、サーバーレス コンポーネントを使って、検査ソリューションを構築しました。着想から COVID-19 に対応する大規模運用に至るまでわずか 2 週間でした。初日の処理検査数は 140 件でした。しかし 1 年後には 1 日に 15 万件もの処理を行っていました。これは構築したデータベース ソリューションが、非常に素早くスケールアップできたおかげでもあります。

CLI コマンドをいくつか使うだけで、高可用性とリードレプリカを有効にすることができると同時に、バックアップと保守アップグレードは自動的に実行されました。小さなチームで非常に厳しいタイムラインをこなしていた自分たちにとって、このスケーラビリティには大きな意味がありました。

TerraCloud SQL の詳細もご覧ください。



- MIT・ハーバード大学ブロード研究所データ サイエンス プラットフォーム技術担当ディレクター Kristian Cibulskis 氏
投稿先