Genome Aggregation Database(gnomAD)は、大規模な配列プロジェクトのデータを集約して調整したもので、調査員の国際的連携によって維持されています。
これらの一般公開データセットは、Cloud Storage バケットと BigQuery で整数範囲のパーティション分割テーブルとして VCF 形式で利用できます。各データセットは染色体別に分割されており、バリアントは 24 のテーブル(接尾辞「__chr*」)に分けられています。分割テーブルを利用することで、クエリのコストを大幅に削減できます。
Variant Transforms を使用してこれらの VCF ファイルが処理され、BigQuery にインポートされています。VEP アノテーションは、Variant Transforms のアノテーションのサポートを使用して簡単に分析できるように、個別の列に解析されています。
データセットへのアクセス
Cloud Storage フォルダ
次のファイルは、gcp-public-data--gnomad
Cloud Storage バケットにあります。
- gnomAD データ全体: gs://gcp-public-data--gnomad
- リリース 2.1.1 のエクソームとゲノム: gs://gcp-public-data--gnomad/release/2.1.1
- リリース 3.0 のゲノム: gs://gcp-public-data--gnomad/release/3.0
BigQuery データセット
次のデータ探索とクエリ用に、BigQuery の gnomAD データセットにアクセスできます。
- リリース 2.1.1 のエクソーム
- リリース 2.1.1 のゲノム
- リリース 3.0 のゲノム
このデータセットは、次のリージョンでも利用可能です。
データセットについて
v2 データセット(GRCh37/hg19)には、さまざまな疾患特異的な集団遺伝学の研究の一環として無関係の個人から収集された 125,748 件のエクソーム配列と 15,708 件の全ゲノム配列が含まれています。v3 データセット(GRCh38)には、v2 と同様に選択された 71,702 件のゲノム配列が含まれています。
BigQuery データセットとサンプルクエリの詳細については、Google Cloud Marketplace をご覧ください。
データセットのソース:
- gnomAD は Broad Institute の gnomAD サイトでホストされています。
使用: データセットの完全な利用規約については、Broad Institute のサイトをご覧ください。Google はこれらのデータセットを「現状のまま」提供し、明示または黙示を問わず、いかなる保証も行いません。Google は、これらのデータセットの使用で、直接または間接の損害が発生したとしても一切の責任を負いません。