GRCh37, GRCh37lite, GRCh38, hg19, hs37d5, b37과 같은 참조 게놈을 Google Cloud에서 사용할 수 있습니다.
데이터세트 액세스
Cloud Storage 폴더
다음 파일은 genomics-public-data
Cloud Storage 버킷에서 사용할 수 있습니다.
데이터세트 정보
데이터세트 소스:
GRCh37: Genome Reference Consortium Human Build 37은 다음 파일의 데이터를 포함합니다.
GRCh37 데이터에 대한 자세한 내용은 GRCh37 NCBI 논문 및 FTP README를 참조하세요.
GRCh37lite: GRCh37lite는 전체 GRCh37 참조 세트와 인간 미토콘드리아 게놈 참조 서열의 하위 세트입니다.
GRCh37lite 데이터에 대한 자세한 내용은 FTP README를 참조하세요.
GRCh38: Genome Reference Consortium Human Build 38은 다음 파일의 데이터를 포함합니다.
GRCh38 데이터에 대한 자세한 내용은 GRCh38 NCBI 논문 및 FTP README를 참조하세요.
Verily's GRCh38: Verily's GRCh38 참조 게놈은 보통염색체의 모든 b38 게놈과 완벽하게 호환됩니다. 특징은 다음과 같습니다.
- 모든 패치 시퀀스 제외
- 대체 일배체형 염색체 생략
- 디코이 서열 포함
- 중심절 영역의 중복 사본 마스킹
기본 어셈블리는 GRCh38_no_alt_plus_hs38d1이며, 이것은 분석용으로 제작되었습니다. 그 근거와 정확한 게놈 변형은 README 파일에 나와 있습니다.
기본 어셈블리에 실제로 다음 변형을 적용했습니다.
참조 세그먼트 이름에는
chr
이라는 접두사가 붙습니다. 많은 추가 데이터 파일은 'chr' 명명 규칙을 사용하는 GENCODE에서 제공합니다.VCF 4.3 사양의 권장사항에 따라 확장된 모든 IUPAC 코드 74개는 첫 번째 일치하는 알파벳순 염기쌍으로 변환됩니다.
이 게놈 염기서열의 릴리스는 이름이
GRCh38_Verily_v1
으로 지정됩니다.
hg19: GRCh37과 마찬가지로 이것은 다른 미토콘드리아 서열과 추가적인 대체 일배체형 어셈블리를 가진 인간 게놈의 2009년 2월 어셈블리입니다. hg19 데이터는 UCSC FTP 사이트에서 호스팅됩니다.
hg19 데이터에 대한 자세한 내용은 FTP README를 참조하세요.
hs37d5: GRCh37, rCRS 미토콘드리아 서열, 인간 헤르페스 바이러스 4 유형 1 및 연결된 디코이 서열의 데이터가 포함됩니다. 데이터는 EBI FTP 사이트에서 호스팅하는 hs37d5.fa.gz라는 1개 파일에 있습니다.
hs37d5 데이터에 대한 자세한 내용은 FTP README를 참조하세요.
b37: b37 참조 게놈은 GRCh37, rCRS 미토콘드리아 서열, 인간 헤르페스 바이러스 4 유형 1의 데이터를 포함하는 일부 버전의 GATK 소프트웨어에 포함되어 있습니다. b37 데이터 세트는 Broad Institute FTP 사이트에서 호스팅합니다.
b37 데이터에 대한 자세한 내용은 GATK FAQ를 참조하세요.
사용: 이 데이터 세트는 데이터 세트 출처(https://www.ncbi.nlm.nih.gov/, https://cse.ucsc.edu/, http://www.internationalgenome.org/data, https://www.broadinstitute.org/)에서 제공하는 약관을 따르는 모든 사용자에게 공개되며 Google의 어떠한 명시적 또는 묵시적인 보증 없이 '있는 그대로' 제공됩니다. Google에서는 데이터세트 사용으로 인해 발생하는 직간접적인 손해에 대해 책임지지 않습니다.