참조용 게놈

GRCh37, GRCh37lite, GRCh38, hg19, hs37d5, b37과 같은 참조 게놈을 Google Cloud에서 사용할 수 있습니다.

데이터세트 액세스

Cloud Storage 폴더

다음 파일은 genomics-public-data Cloud Storage 버킷에서 사용할 수 있습니다.

데이터세트 정보

데이터세트 소스:

  • GRCh37: Genome Reference Consortium Human Build 37은 다음 파일의 데이터를 포함합니다.

    GRCh37 데이터에 대한 자세한 내용은 GRCh37 NCBI 논문FTP README를 참조하세요.

  • GRCh37lite: GRCh37lite는 전체 GRCh37 참조 세트와 인간 미토콘드리아 게놈 참조 서열의 하위 세트입니다.

    GRCh37lite 데이터에 대한 자세한 내용은 FTP README를 참조하세요.

  • GRCh38: Genome Reference Consortium Human Build 38은 다음 파일의 데이터를 포함합니다.

    GRCh38 데이터에 대한 자세한 내용은 GRCh38 NCBI 논문FTP README를 참조하세요.

  • Verily's GRCh38: Verily's GRCh38 참조 게놈은 보통염색체의 모든 b38 게놈과 완벽하게 호환됩니다. 특징은 다음과 같습니다.

    • 모든 패치 시퀀스 제외
    • 대체 일배체형 염색체 생략
    • 디코이 서열 포함
    • 중심절 영역의 중복 사본 마스킹

    기본 어셈블리는 GRCh38_no_alt_plus_hs38d1이며, 이것은 분석용으로 제작되었습니다. 그 근거와 정확한 게놈 변형은 README 파일에 나와 있습니다.

    기본 어셈블리에 실제로 다음 변형을 적용했습니다.

    • 참조 세그먼트 이름에는 chr이라는 접두사가 붙습니다. 많은 추가 데이터 파일은 'chr' 명명 규칙을 사용하는 GENCODE에서 제공합니다.

    • VCF 4.3 사양의 권장사항에 따라 확장된 모든 IUPAC 코드 74개는 첫 번째 일치하는 알파벳순 염기쌍으로 변환됩니다.

    • 이 게놈 염기서열의 릴리스는 이름이 GRCh38_Verily_v1으로 지정됩니다.

  • hg19: GRCh37과 마찬가지로 이것은 다른 미토콘드리아 서열과 추가적인 대체 일배체형 어셈블리를 가진 인간 게놈의 2009년 2월 어셈블리입니다. hg19 데이터UCSC FTP 사이트에서 호스팅됩니다.

    hg19 데이터에 대한 자세한 내용은 FTP README를 참조하세요.

  • hs37d5: GRCh37, rCRS 미토콘드리아 서열, 인간 헤르페스 바이러스 4 유형 1 및 연결된 디코이 서열의 데이터가 포함됩니다. 데이터는 EBI FTP 사이트에서 호스팅하는 hs37d5.fa.gz라는 1개 파일에 있습니다.

    hs37d5 데이터에 대한 자세한 내용은 FTP README를 참조하세요.

  • b37: b37 참조 게놈은 GRCh37, rCRS 미토콘드리아 서열, 인간 헤르페스 바이러스 4 유형 1의 데이터를 포함하는 일부 버전의 GATK 소프트웨어에 포함되어 있습니다. b37 데이터 세트Broad Institute FTP 사이트에서 호스팅합니다.

    b37 데이터에 대한 자세한 내용은 GATK FAQ를 참조하세요.

사용: 이 데이터 세트는 데이터 세트 출처(https://www.ncbi.nlm.nih.gov/, https://cse.ucsc.edu/, http://www.internationalgenome.org/data, https://www.broadinstitute.org/)에서 제공하는 약관을 따르는 모든 사용자에게 공개되며 Google의 어떠한 명시적 또는 묵시적인 보증 없이 '있는 그대로' 제공됩니다. Google에서는 데이터세트 사용으로 인해 발생하는 직간접적인 손해에 대해 책임지지 않습니다.