Genome Aggregation Database

Genome Aggregation Database (gnomAD) 由国际研究者联盟进行维护,并收集和协调来自大规模测序项目的数据。

这些公共数据集在 Cloud Storage 存储分区和 BigQuery 中以 VCF 格式作为整数范围的分区表提供。每个数据集均按染色体进行分片,这意味着变异分布在 24 个表中(以“__chr*”后缀表示)。使用分片表可以显著降低查询费用。

Variant Transforms 用于处理这些 VCF 文件并将其导入 BigQuery。使用 Variant Transforms 的注解支持,将 VEP 注解解析为单独的列,以便于分析。

数据集访问

Cloud Storage 文件夹

以下文件位于 gcp-public-data--gnomad Cloud Storage 存储桶中:

BigQuery 数据集

您可以访问 BigQuery 中的 gnomAD 数据集,以对以下内容进行数据探索和查询:

  • 版本 2.1.1 外显子组
  • 版本 2.1.1 基因组
  • 版本 3.0 基因组

该数据集也可在以下地区使用:

关于数据集

v2 数据集 (GRCh37/hg19) 涵盖 125748 个外显子组序列和 15,708 个全基因组序列,这些序列来自于部分不同疾病特异性和群体遗传研究的无关个体。v3 数据集 (GRCh38) 涵盖 71702 个基因组,如 v2 中所选择。

如需详细了解 BigQuery 数据集和示例查询,请参阅 Google Cloud Marketplace

数据集来源

使用:请访问 Broad Institute 的网站,查看数据集的完整使用条款。Google“按原样”提供数据集,对此不作任何明示或暗示的保证。对于因使用数据集而导致的任何直接或间接损害,Google 不承担任何责任。