大きなゲノムデータで、自閉症スペクトラムの見つかっていない答えを発見

何千ものゲノムへのスケーリング

MSSNG Project チームは何千人もの個人のホールゲノムを、シークエンスするためのロードマップを作成していましたが、その時すぐに問題になったのは、このサイズのプロジェクトから生み出されるデータのスケールが、これまで一緒にやってきたパートナー企業の持っている容量や能力を超えてしまうという事実でした。1 個のゲノムから 100 から 200 ギガバイトのデータが出てくるため、 MSSNG プロジェクト全体では簡単にペタバイトを超えてしまうのです。

「このスケールのデータを扱うためには、アカデミアや生命科学の領域を超えなくてはなりませんでした。ビッグデータの保存や分析、アクセスの提供などを行っている専門家とのコラボレーションを作りあげる必要があったのです。」と Autism Speaks の チーフサイエンスオフィサー Robert Ring 博士は述べています。「生物学的な発見と Google の専門性を繋いで、膨大な情報から価値を引き出す試みは、自閉症研究だけではなく、ゲノム医療分野全体の発展につながります。」

Google Genomics を使うことで、 MSSNG Project は Google Search や Maps で使われているのと同じテクノロジーを利用することができます。これらの技術を使うことで、 MSSNG チームは、複雑な生物学のデータセットを安全に保存や処理、検索、共有をするためのソリューションを作ることができます。Autism Speaks は、既に 1,300 個を超えるゲノムからの 100 テラバイト近いデータを Google Cloud Storage にアップロードしており、さらに 2,000 のサンプルがシークエンス待ちとなっています。最終的に MSSNG データベースは 10,000 人の個人のホールゲノムからの情報を保持することになりますが、これは単独の自閉症関連の DNA シークエンスデータのレポジトリとしては世界最大です。

オープンサイエンスを可能に

MSSNG プロジェクトの重要な部分は、これらのデータを世界中の自閉症研究コミュニティと共有するということです。これまでは、ゲノムデータを共同研究者の間で交換する為にはハードディスクドライブを物理的に送らなくてはならなかったため、コストも時間もかかりました。MSSNG データベースは、何千人もの個人からのゲノムデータへのウェブベースでのアクセスと新しいオンラインの分析ツールの提供することにより、自閉症コミュニティの研究プロジェクトの発展に直結しました。

2015 年 1 月に、 Nature Medicine は MSSNG Project が主導した研究の結果を発表しましたが、それは自閉症の多様性に関する新しい知見を明らかにするものでした。この研究は、この種の自閉症ゲノム研究としては最大規模となりましたが、そこで分かったのは、この病気の遺伝的な基盤はこれまでに考えられていたよりも複雑だということでした。自閉症スペクトラムの子孫は、そのほとんどが異なる自閉症との関連をもった遺伝子を持っていました。研究では、個人を特定できない形でデータが Google Cloud Platform にアップロードされ、世界中の科学者の研究の用に供されています。

「私は大変興奮しました。何故なら、初めて世界中の全ての科学者が『コモンクラウド』でこれらのデータを共同で分析することが出来る様になったからです。」と述べるのは FRSC、 MSSNG プログラムディレクター Ph.D., D.Sc., Stephen Scherer 博士です。「Google Cloud Platform と私たちと Google Genomics チームとの協業の成果として、この広大な情報の海が世界中の研究者に無料で公開されるのです。これは、将来、ゲノムのオープンアクセスが多くの発達異常や病気の個別化医療に繋がった時のお手本となります。」

MSSNG ポータルは Google Cloud Platform と Google Genomics 上に構築されていますが、シークエンスデータへのアクセスは、資格をもったリサーチャーであれば、最近のどのウェブブラウザを使っても可能です。ログオンすれば、 リサーチャーとバイオインフォマティシャンは BigQuery やバッチアナリシスパイプライン用に Google Genomics API を使ってデータのクエリが可能です。MSSNG Project は Google Cloud Platform を使うことで、この世界的なプロジェクトの次々に変化するクエリワークロードの要求を処理する用意ができます。

自閉症の見つかっていない答えを発見

この 5 年間、科学者達は自閉症に関連した稀な遺伝子の変化や突然変異をたくさん見つけてきましたが、それ自身で自閉症を発症するのに十分な遺伝子はその中では少数でした。しかしながら、ほとんどのケースで自閉症は自閉症のリスク遺伝子と、初期の脳の成長に影響を与える環境要因によるものだと判明しています。研究者は MSSNG Project のデータを使って研究を行い、自閉症における遺伝子型-表現型の関係の最も悩ましい問題のいくつかに答えを見つける糸口を見つけることでしょう。

MSSNG データベースに保存された、各個人のゲノムシークエンスは標準化された方法で集められた、ドナーの詳細な医療情報と関連付けられます。この医療情報は診断や多くのバラエティに富んだ関連する医療、研究情報を含んでいます。DNA シークエンスデータと一緒にすることで、研究者はより良い質問をすることができ、遺伝的突然変異が自閉症や関係する多くの医療的な状態と、どのように結びついているのかをより早く知ることができます。

「この様に大きなデータセットに、新しい革新的な見方を提供するという意味で、 Google のチームが持ち込んだ知見と専門性はこれまでにないものでした。」と Ring 博士は述べていました。「一緒になることで、診断や治療をこれまでにない方法で発展させるような自閉症の原因やサブタイプの理解を、飛躍的に前進させる可能性をもっています。これは自閉症のゲノムの発見において信じられないぐらい大事な瞬間で、私たちは次の章を一緒に書く用意が出来たということです。」