Genome Aggregation Database (gnomAD) 由国际研究者联盟进行维护,并收集和协调来自大规模测序项目的数据。
这些公共数据集在 Cloud Storage 存储分区和 BigQuery 中以 VCF 格式作为整数范围的分区表提供。每个数据集均按染色体进行分片,这意味着变异分布在 24 个表中(以“__chr*”后缀表示)。使用分片表可以显著降低查询费用。
Variant Transforms 用于处理这些 VCF 文件并将其导入 BigQuery。使用 Variant Transforms 的注释支持,将VEP注释解析为单独的列,以便于分析。
数据集访问
Cloud Storage 文件夹
以下文件位于 gcp-public-data--gnomad
Cloud Storage 存储分区中:
- 完整的 gnomAD 数据:gs://gcp-public-data--gnomad
- 版本 2.1.1 外显子组和基因组:gs://gcp-public-data--gnomad/release/2.1.1
- 版本 3.0 基因组:gs://gcp-public-data--gnomad/release/3.0
BigQuery 数据集
您可以访问 BigQuery 中的 gnomAD 数据集,以对以下内容进行数据探索和查询:
- 版本 2.1.1 外显子组
- 版本 2.1.1 基因组
- 版本 3.0 基因组
该数据集也可在以下地区使用:
关于数据集
v2 数据集 (GRCh37/hg19) 涵盖 125748 个外显子组序列和 15,708 个全基因组序列,这些序列来自于部分不同疾病特异性和群体遗传研究的无关个体。v3 数据集 (GRCh38) 涵盖 71702 个基因组,如 v2 中所选择。
如需详细了解 BigQuery 数据集和示例查询,请参阅 Google Cloud Marketplace。
数据集来源:
- gnomAD 由 Broad Institute 的 gnomAD 网站托管
使用:请访问 Broad Institute 的网站,查看数据集的完整使用条款。Google“按原样”提供数据集,对此不作任何明示或暗示的保证。对于因使用数据集而导致的任何直接或间接损害,Google 不承担任何责任。