データ分析

Google Cloud で Genome Aggregation Database（gnomAD）へのオープンアクセスを提供

2020年10月16日

Google Cloud Japan Team

※この投稿は米国時間 2020 年 10 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。

このたび、Google Cloud の医療、ライフサイエンス部門と MIT およびハーバードの Broad Institute のコラボレーションにより、世界屈指の包括的なゲノム公開データセットである Genome Aggregation Database（gnomAD）に無料でアクセスできるようになります。

gnomAD は疾患特異的な集団遺伝学の研究を含めて、多数の大規模なシーケンシングプロジェクトのデータを集約したものです。このデータセットには、さまざまな遺伝的祖先グループの 141,000 人を超える健康な成人で観察された 2 億 4,100 万を超える固有の短いヒト遺伝的バリアントと 335,000 の構造バリアントのデータが集約されています。ほぼどこからでもアクセス可能なヒト遺伝子研究と臨床的変異解釈向けのリソースとして、世界中の臨床遺伝子診断パイプラインで使用されています。

gnomAD データは生物医学や医療分野の幅広いユースケースに対応するために、いくつかの形式でホストされています。このデータは、Google Cloud Storage の Hail 形式のテーブルと Variant Call Format（VCF）ファイルで利用できます。また、一般公開データセットプログラムの一部として BigQuery でも利用可能です。BigQuery では毎月 1 TB まで無料でクエリデータを処理できますが、この無料枠を gnomAD の一般公開データセットに対するクエリ実行に利用することができます。Google Cloud ユーザーは、Google Cloud のバイオインフォマティクスパイプラインを通じてすべての Google Cloud リージョンからあらゆる形式のデータに安全にアクセスでき、下り（外向き）ネットワークの料金を支払う必要がありません。

gnomAD を BigQuery で利用できるようにするために、Google Cloud チームは Variant Transforms を使用して VCF ファイルを取り込みました。取り込んだバリアントはシャーディングし、染色体ごとに出力テーブルを分割しました。さらに、整数範囲パーティショニングとクラスタリングを利用してクエリの費用を削減しました。この処理を行うことで、研究者が専用のクラウドコンピューティングリソースの要求や料金の支払いを行うことなく、gnomAD を迅速かつ効率的に探索できるようにしています。より小さなターゲットのゲノム領域をクエリすることにより、データセット全体をクエリする場合と比較して、クエリ費用が大幅に減少することが見込まれています。この Variant Transforms アプリケーションは、Mayo Clinic や Color Genomics などのパートナーやお客様によって活用され、ゲノム研究を加速しています。BigQuery での gnomAD の使用について詳しくは、こちらのチュートリアルをご覧ください。

また、Google Cloud Storage バケットのデータには、バリアントコールの評価と検証に使用される標準の真理集合、Broad Institute の Nature 掲載の論文データ、インターバルリスト、その他のアノテーションリソースも含まれています。

Google Cloud で gnomAD にアクセスするには、こちらのドキュメントをご覧ください。ファイルの参照やダウンロードには、Cloud Console やコマンドラインツール gsutil もご利用いただけます。gsutil のインストール後に、次のコマンドでブラウジングを開始してください。

$ gsutil ls gs://gcp-public-data--gnomad

Google Cloud で提供されるその他の医療、ライフサイエンスデータセットサービスについては、こちらをご覧ください。

-Google Cloud 医療、ライフサイエンス担当プログラムマネージャー Johanna Katz

-Broad Institute コンピュテーショナルゲノミクス担当アソシエイトディレクター Grace Tiao

データ分析