此页面由 Cloud Translation API 翻译。

Genome Aggregation Database

Genome Aggregation Database (gnomAD) 由国际研究者联盟进行维护，并收集和协调来自大规模测序项目的数据。

这些公共数据集在 Cloud Storage 存储分区和 BigQuery 中以 VCF 格式作为整数范围的分区表提供。每个数据集均按染色体进行分片，这意味着变异分布在 24 个表中（以“__chr*”后缀表示）。使用分片表可以显著降低查询费用。

Variant Transforms 用于处理这些 VCF 文件并将其导入 BigQuery。使用 Variant Transforms 的注释支持，将VEP注释解析为单独的列，以便于分析。

数据集访问

以下文件位于 gcp-public-data--gnomad Cloud Storage 存储分区中：

您可以访问 BigQuery 中的 gnomAD 数据集，以对以下内容进行数据探索和查询：

该数据集也可在以下地区使用：

v2 数据集 (GRCh37/hg19) 涵盖 125748 个外显子组序列和 15,708 个全基因组序列，这些序列来自于部分不同疾病特异性和群体遗传研究的无关个体。v3 数据集 (GRCh38) 涵盖 71702 个基因组，如 v2 中所选择。

如需详细了解 BigQuery 数据集和示例查询，请参阅 Google Cloud Marketplace。

数据集来源：

使用：请访问 Broad Institute 的网站，查看数据集的完整使用条款。Google“按原样”提供数据集，对此不作任何明示或暗示的保证。对于因使用数据集而导致的任何直接或间接损害，Google 不承担任何责任。