コンテンツに移動
Anthos

Wellcome Sanger Institute: 画期的な研究に最適な環境作りに Anthos を活用

2020年12月25日
Google Cloud Japan Team

※この投稿は米国時間 2020 年 12 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。

編集者注: 今回は Wellcome Sanger Institute で Cellular Genetics Programme(細胞遺伝学プログラム)情報チームの責任者を務める Vladimir Kiselev 博士に、Google Cloud のマルチクラウド ソリューションの Anthos を活用することで、いかに共同作業や分析の共有の効率化が図れるかについてお話を伺いました。

Wellcome Sanger Institute は 1992 年に開設されて以来、科学的発見の第一線を牽引しています。当初はヒトゲノム プロジェクトの DNA 配列を解析する目的で開設された研究所でしたが、今や世界有数のゲノム科学センターの一つであり、それぞれ独立した 5 つのプログラム全体で科学者、エンジニア、研究者が 1,000 人近く働いています。5 つのプログラムの一つに、Cellular Genetics Programme があります。これは最先端の「細胞アトラス」方式とコンピューティング技術を組み合わせ、人体の細胞をマッピングすることでその仕組みをさらに深く理解しようというプログラムです。

それには最新の技術が求められることから、Cellular Genetics Programme の情報チームを率いる Vladimir Kiselev 博士のような存在が必要となります。博士は次のように述べています。「研究者が作業するうえで必要となる技術的なインフラストラクチャを整えるのが私たちのチームの仕事です。私たちの仕事は、画像データ パイプラインの設定から配列データを解析する研究者に対するアシスト、さらには研究者向けウェブサイトの運営までさまざまです。研究チームが必要とすれば何であってもサポートできる、範囲に制限なく自由な混合型の環境作りを行っています。」

情報チームが主導した中で最も広く知られている取り組みは、分析を完全に文書化してオンラインで共有できるようにするためのオープンソースの仮想ノートブック JupyterHub を使い二次的なデータ分析を可能にしたことです。JupyterHub のユーザー フレンドリーなインターフェースは、バイオインフォマティクスに馴染みのない研究者であっても使いやすく、大規模なデータセットを処理するのに十分強力な Sanger クラウド サービスに簡単にアクセスできます。これにより、Cellular Genetics Programme に参加する職員の作業をサポートすることはもちろん、外部の共同研究者との作業も一層容易になります。現在 JupyterHub に登録しているユーザーは 90 人ですが、そのうち 15% にあたる研究者がニューカッスルからオックスフォードまでさまざまな場所にある他の研究機関に所属し、Wellcome Sanger Institute との共同プロジェクトに取り組んでいます。

しかしながら、どのようなソリューションも同研究所独自の複雑な IT インフラストラクチャの枠内に収まるものでなくてはいけません。JupyterHub を最初にデプロイした後、50 台のユーザー Pod が並行して稼働され、需要増加により安定性が低下し始めるという事態に陥りました。情報チームは既存のインフラストラクチャの枠内でさまざまな構成をテストし、商用ソリューションを試してみましたが、改善はほとんど見られませんでした。強力でありながら柔軟なインフラストラクチャを探していたチームは、今年の初めに Google Cloud のハイブリッドおよびマルチクラウド プラットフォーム、Anthos に目を向けました。

機能と安定性との絶妙なバランス

名だたる科学機関である Wellcome Sanger Institute は、強力なハイ パフォーマンス コンピューティング クラスタとオープンソースのオペレーティング システムである OpenStack を実行するプライベート データセンターにアクセスできます。そのこともあって、数あるプロバイダの中から、ニーズに合った理想的なソリューションを採用することができました。たとえば情報チームは、Cellular Genetics JupyterHub を実行する場所として、Google が開発したオープンソース コンテナ オーケストレーション プラットフォームである Kubernetes を選びました。

けれども、研究所の既存のスタックが強力であるにもかかわらず、JupyterHub を統合するのは骨の折れる作業で、セットアップとメンテナンスに多大なリソースがかかりました。JupyterHub に対する需要が高まるにつれ、メンテナンスが難しくなり、不安定な状態が続きました。しかも、Kubespray を使った従来の OpenStack オンプレミス ソリューションでは、インプレース アップグレードを行うことができませんでした。ユーザーはますます影響を受けるようになり、研究のペースが落ちるという結果になってしまったのです。

研究所では、既存のインフラストラクチャに支障をきたすことなく、JupyterHub クラスタを、研究所のハードウェア上で、高い信頼性を保ちつつも大規模に実行できるソリューションを必要としていました。情報チームは Google Cloud プレミア パートナーである、Appsbroker と協力して最適な方法を探し当てました。研究所のデータセンターにエンタープライズ クラス標準の Kubernetes ソリューションを導入し、インプレース アップグレードを行い OpenStack への依存から脱却するために導き出した理想的な答えが Anthos だったのです。

一連のトレーニング セッションを実行した後、情報チームと Appsbroker はいくつかの JupyterHub アカウントで概念実証(POC)を行いました。最初に JupyterHub を設定したときには、複雑な IT インフラストラクチャ向けに JupyterHub を構成するまで実に 4 か月かかっています。しかし、Anthos を使用することにより、VMware(研究所の事実上のインフラストラクチャ プラットフォーム)上で GKE On-Prem をネイティブに実行できたので、チームはわずか 5 日で JupyterHub の運用を開始し、すべてのノートブックをつなぎ研究者の安全なアクセスを可能にしたのです。

ハイブリッド アーキテクチャで Google Cloud のパワーを活用

Anthos に JupyterHub を構築した効果は、POC でもすぐに表れました。Kiselev 博士によると、Kubernetes のメンテナンスは、今では研究所の主幹 IT チームが Google Cloud Console を介してサポートする Anthos サービスになったとのことです。博士は次のように説明しています。「Anthos を導入したことで安定性が大幅に改善されました。クラスタについて心配しなくていいというのが一番です。さらに優れているのは、ユーザーがログオンできない、あるいは重要な作業ができないといった問題を気にする必要がなくなったということです。」

また、Anthos によって情報チームは以前のソリューションでは経験したことがないレベルの使いやすさと信頼性を実感しています。これまでのようにメンテナンス作業に追われる代わりに、研究所の新しいソリューションの開発にもっと時間を割けるようになりました。

最後になりますが、Anthos をクラウド上ではなく研究所のハードウェア上で実行できるということは、ライセンスが固定料金になるため、長期スパンで戦略を考えるときに有益です。同博士は次のように述べています。「情報委員会でプロジェクトの資金調達を議論する際に、予想される費用の月額を誰でも確認できるので判断が非常に容易になりました。」

Anthos で概念実証を作成し、プログラムを推進

Google Cloud と Appsbroker で概念実証に成功した後、Cellular Genetics Programme では現在 JupyterHub を Anthos 上に全面的にデプロイすべく作業を進めています。また、チームは Google Cloud の扱いにいくぶん慣れてきたことで、研究者向けに内外のウェブサイトをホスティングする、あるいは Anthos に GitLab をデプロイし CI / CD パイプラインを実行することでアプリケーションの各開発段階に自動化をさらに導入するなど、新しいプロジェクトの実験的な運用も簡単にこなせるようになっています。

同博士は次のように述べています。「Google Cloud Console との統合で利便性が非常に向上したと実感しています。JupyterHub やパイプラインなど、必要なものはすべて一元管理できます。すべてを管理できる単一のプラットフォームを実現することこそ、私たちが目指しているビジョンです。」

-Wellcome Sanger Institute、Vladimir Kiselev 博士

投稿先