Reference Genomes

Google Cloud 上提供了 Reference Genomes,如 GRCh37、GRCh37lite、GRCh38、hg19、hs37d5 和 b37。

数据集访问

Cloud Storage 文件夹

以下文件位于 genomics-public-data Cloud Storage 存储分区中:

关于数据集

数据集来源

  • GRCh37:Genome Reference Consortium Human Build 37 包括来自以下文件的数据:

    如需详细了解 GRCh37 的数据,请参阅 GRCh37 NCBI 论文FTP README

  • GRCh37lite:GRCh37lite 是完整的 GRCh37 参考基因序列集的一个子集,外加以下文件中的人类线粒体基因组参考序列:

    如需详细了解 GRCh37lite 的数据,请参阅 FTP README

  • GRCh38:Genome Reference Consortium Human Build 38 包括来自以下文件的数据:

    如需详细了解 GRCh38 的数据,请参阅 GRCh38 NCBI 论文FTP README

  • Verily GRCh38:Verily GRCh38 参考基因组与常染色体中的任意 b38 基因组完全兼容。它具有以下特性:

    • 不包含所有补丁序列
    • 省略替代的单倍型染色体
    • 包含诱饵序列
    • 遮盖着丝粒区的重复副本

    其基础组件是 GRCh38_no_alt_plus_hs38d1,专门用于分析。它的基本原理和确切的基因组修改记录在其 README 文件中。

    Verily 将以下修改应用于基础组装:

    • 参考分段名称以 chr 为前缀。其他许多数据文件由 GENCODE 提供,其使用“chr”命名惯例。

    • 根据 VCF 4.3 规范的建议,所有 74 个扩展 IUPAC 代码均被转换为第一个按字母顺序匹配的碱基对。

    • 该基因组参考版本命名为 GRCh38_Verily_v1

  • hg19:与 GRCh37 类似,其为 2009 年 2 月的人类基因组组装,具有不同的线粒体序列和其他替代的单倍型组装。hg19 数据UCSC FTP 网站托管。

    如需详细了解 hg19 的数据,请参阅 FTP README

  • hs37d5:包括来自 GRCh37、rCRS 线粒体序列、人疱疹病毒 4 型 1 类和级联诱饵序列的数据。数据位于 EBI FTP 网站托管的文件 hs37d5.fa.gz 中。

    如需详细了解 hs37d5 的数据,请参阅 FTP README

  • b37:某些版本的 GATK 软件包括 b37 参考基因组,其中包括来自 GRCh37、rCRS 线粒体序列和人疱疹病毒 4 型 1 类的数据。b37 数据集Broad Institute FTP 网站托管。

    如需详细了解 b37 的数据,请参阅 GATK 常见问题解答

使用:此数据集公开提供给所有人使用,但使用者需遵循数据集来源(https://www.ncbi.nlm.nih.gov/https://cse.ucsc.edu/http://www.internationalgenome.org/datahttps://www.broadinstitute.org/)规定的条款;Google“按原样”提供数据集,对此不作任何明示或暗示的保证。 对于因使用此数据集而导致的任何直接或间接损害,Google 不承担任何责任。