Genomas de referência

Os genomas de referência, como GRCh37, GRCh37lite, GRCh38, hg19, hs37d5 e b37, estão disponíveis no Google Cloud.

Acesso ao conjunto de dados

Pastas do Cloud Storage

Os arquivos a seguir estão disponíveis no bucket genomics-public-data do Cloud Storage:

Sobre o conjunto de dados

Origem do conjunto de dados:

  • GRCh37: o Genome Reference Consortium Human Build 37 inclui dados dos seguintes arquivos:

    Para mais informações sobre dados GRCh37, consulte o documento GRCh37 NCBI e o arquivo README no FTP (links em inglês).

  • GRCh37lite: o GRCh37lite é um subconjunto do conjunto completo de referência GRCh37 mais a sequência de referência do genoma mitocondrial humano em um único arquivo:

    Para mais informações sobre os dados do GRCh37lite, consulte o arquivo README no FTP.

  • GRCh38: o Genome Reference Consortium Human Build 38 inclui dados dos seguintes arquivos:

    Para mais informações sobre dados GRCh38, consulte o documento GRCh38 NCBI e o arquivo README no FTP (links em inglês).

  • GRCh38 da Verily (em inglês): o genoma de referência GRCh38 da Verily é totalmente compatível com qualquer genoma b38 no autossomo. Os seguintes recursos estão incluídos:

    • Exclui todas as sequências de patch.
    • Omite cromossomos de haplótipos alternativos
    • Inclui sequências de proteção
    • Mascara cópias duplicadas de regiões centroméricas

    O conjunto base é GRCh38_no_alt_plus_hs38d1, criado especificamente para análise. Suas justificativas e modificações genômicas exatas estão documentadas em seu arquivo README (em inglês).

    A Verily aplicou as seguintes modificações ao conjunto da base:

    • Os nomes de segmentos de referência são prefixados com chr. Muitos dos arquivos de dados extras são fornecidos pelo GENCODE, que usa a convenção de nomenclatura "chr".

    • Todos os 74 códigos IUPAC estendidos são convertidos para o primeiro par de base alfabética correspondente, conforme recomendado na especificação do VCF 4.3.

    • Esta versão da referência do genoma é denominada GRCh38_Verily_v1.

  • hg19: semelhante ao GRCh37, este é o conjunto de fevereiro de 2009 do genoma humano com uma sequência mitocondrial diferente e outros conjuntos alternativos de haplótipos. Os dados de hg19 são hospedados pelo site de FTP da UCSC (links em inglês).

    Para mais informações sobre dados de hg19, consulte o arquivo README no FTP.

  • hs37d5: inclui dados de GRCh37, a sequência mitocondrial de rCRS, herpesvírus humano 4 tipo 1 e as sequências concatenadas de proteção. Os dados estão em um único arquivo, hs37d5.fa.gz, hospedado pelo site FTP da EBI (links em inglês).

    Para mais informações sobre dados do hs37d5, consulte o arquivo README no FTP.

  • b37: o genoma de referência do b37 é incluído por algumas versões do software GATK, que inclui dados do GRCh37, a sequência mitocondrial do rCRS e o herpesvírus humano 4 tipo 1. O conjunto de dados b37 é hospedado pelo site FTP do Broad Institute (links em inglês).

    Para mais informações sobre os dados de b37, consulte as Perguntas frequentes do GATK.

Uso: esses conjuntos de dados estão disponíveis ao público conforme os termos fornecidos pelas fontes dos conjuntos de dados (https://www.ncbi.nlm.nih.gov/, https://cse.ucsc.edu/, http://www.internationalgenome.org/data e https://www.broadinstitute.org/ [links em inglês]) e são concedidos "NO ESTADO EM QUE SE ENCONTRAM", sem garantia expressa ou implícita do Google. O Google isenta-se de qualquer responsabilidade por quaisquer danos, diretos ou indiretos, decorrentes do uso dos conjuntos de dados.