Google Cloud 上提供了 Reference Genomes,如 GRCh37、GRCh37lite、GRCh38、hg19、hs37d5 和 b37。
数据集访问
Cloud Storage 文件夹
以下文件位于 genomics-public-data
Cloud Storage 存储分区中:
关于数据集
数据集来源:
GRCh37:Genome Reference Consortium Human Build 37 包括来自以下文件的数据:
如需详细了解 GRCh37 的数据,请参阅 GRCh37 NCBI 论文和 FTP README。
GRCh37lite:GRCh37lite 是完整的 GRCh37 参考基因序列集的一个子集,外加以下文件中的人类线粒体基因组参考序列:
如需详细了解 GRCh37lite 的数据,请参阅 FTP README。
GRCh38:Genome Reference Consortium Human Build 38 包括来自以下文件的数据:
如需详细了解 GRCh38 的数据,请参阅 GRCh38 NCBI 论文和 FTP README。
Verily GRCh38:Verily GRCh38 参考基因组与常染色体中的任意 b38 基因组完全兼容。它具有以下特性:
- 不包含所有补丁序列
- 省略替代的单倍型染色体
- 包含诱饵序列
- 遮盖着丝粒区的重复副本
其基础组件是 GRCh38_no_alt_plus_hs38d1,专门用于分析。它的基本原理和确切的基因组修改记录在其 README 文件中。
Verily 将以下修改应用于基础组装:
参考分段名称以
chr
为前缀。其他许多数据文件由 GENCODE 提供,其使用“chr”命名惯例。根据 VCF 4.3 规范的建议,所有 74 个扩展 IUPAC 代码均被转换为第一个按字母顺序匹配的碱基对。
该基因组参考版本命名为
GRCh38_Verily_v1
。
hg19:与 GRCh37 类似,其为 2009 年 2 月的人类基因组组装,具有不同的线粒体序列和其他替代的单倍型组装。hg19 数据由 UCSC FTP 网站托管。
如需详细了解 hg19 的数据,请参阅 FTP README。
hs37d5:包括来自 GRCh37、rCRS 线粒体序列、人疱疹病毒 4 型 1 类和级联诱饵序列的数据。数据位于 EBI FTP 网站托管的文件 hs37d5.fa.gz 中。
如需详细了解 hs37d5 的数据,请参阅 FTP README。
b37:某些版本的 GATK 软件包括 b37 参考基因组,其中包括来自 GRCh37、rCRS 线粒体序列和人疱疹病毒 4 型 1 类的数据。b37 数据集由 Broad Institute FTP 网站托管。
如需详细了解 b37 的数据,请参阅 GATK 常见问题解答。
使用:此数据集公开提供给所有人使用,但使用者需遵循数据集来源(https://www.ncbi.nlm.nih.gov/、https://cse.ucsc.edu/、http://www.internationalgenome.org/data 和 https://www.broadinstitute.org/)规定的条款;Google“按原样”提供数据集,对此不作任何明示或暗示的保证。 对于因使用此数据集而导致的任何直接或间接损害,Google 不承担任何责任。