Google Cloud で Genome Aggregation Database(gnomAD)へのオープン アクセスを提供
Google Cloud Japan Team
※この投稿は米国時間 2020 年 10 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。
このたび、Google Cloud の医療、ライフ サイエンス部門と MIT およびハーバードの Broad Institute のコラボレーションにより、世界屈指の包括的なゲノム公開データセットである Genome Aggregation Database(gnomAD)に無料でアクセスできるようになります。
gnomAD は疾患特異的な集団遺伝学の研究を含めて、多数の大規模なシーケンシング プロジェクトのデータを集約したものです。このデータセットには、さまざまな遺伝的祖先グループの 141,000 人を超える健康な成人で観察された 2 億 4,100 万を超える固有の短いヒト遺伝的バリアントと 335,000 の構造バリアントのデータが集約されています。ほぼどこからでもアクセス可能なヒト遺伝子研究と臨床的変異解釈向けのリソースとして、世界中の臨床遺伝子診断パイプラインで使用されています。
gnomAD データは生物医学や医療分野の幅広いユースケースに対応するために、いくつかの形式でホストされています。このデータは、Google Cloud Storage の Hail 形式のテーブルと Variant Call Format(VCF)ファイルで利用できます。また、一般公開データセット プログラムの一部として BigQuery でも利用可能です。BigQuery では毎月 1 TB まで無料でクエリデータを処理できますが、この無料枠を gnomAD の一般公開データセットに対するクエリ実行に利用することができます。Google Cloud ユーザーは、Google Cloud のバイオインフォマティクス パイプラインを通じてすべての Google Cloud リージョンからあらゆる形式のデータに安全にアクセスでき、下り(外向き)ネットワークの料金を支払う必要がありません。
gnomAD を BigQuery で利用できるようにするために、Google Cloud チームは Variant Transforms を使用して VCF ファイルを取り込みました。取り込んだバリアントはシャーディングし、染色体ごとに出力テーブルを分割しました。さらに、整数範囲パーティショニングとクラスタリングを利用してクエリの費用を削減しました。この処理を行うことで、研究者が専用のクラウド コンピューティング リソースの要求や料金の支払いを行うことなく、gnomAD を迅速かつ効率的に探索できるようにしています。より小さなターゲットのゲノム領域をクエリすることにより、データセット全体をクエリする場合と比較して、クエリ費用が大幅に減少することが見込まれています。この Variant Transforms アプリケーションは、Mayo Clinic や Color Genomics などのパートナーやお客様によって活用され、ゲノム研究を加速しています。BigQuery での gnomAD の使用について詳しくは、こちらのチュートリアルをご覧ください。
また、Google Cloud Storage バケットのデータには、バリアント コールの評価と検証に使用される標準の真理集合、Broad Institute の Nature 掲載の論文データ、インターバル リスト、その他のアノテーション リソースも含まれています。
Google Cloud で gnomAD にアクセスするには、こちらのドキュメントをご覧ください。ファイルの参照やダウンロードには、Cloud Console やコマンドライン ツール gsutil もご利用いただけます。gsutil のインストール後に、次のコマンドでブラウジングを開始してください。
$ gsutil ls gs://gcp-public-data--gnomad
Google Cloud で提供されるその他の医療、ライフ サイエンス データセット サービスについては、こちらをご覧ください。
-Google Cloud 医療、ライフ サイエンス担当プログラム マネージャー Johanna Katz
-Broad Institute コンピュテーショナル ゲノミクス担当アソシエイト ディレクター Grace Tiao