Os genomas de referência, como GRCh37, GRCh37lite, GRCh38, hg19, hs37d5 e b37, estão disponíveis no Google Cloud.
Acesso ao conjunto de dados
Pastas do Cloud Storage
Os arquivos a seguir estão disponíveis no bucket genomics-public-data
do Cloud Storage:
Sobre o conjunto de dados
Origem do conjunto de dados:
GRCh37: o Genome Reference Consortium Human Build 37 inclui dados dos seguintes arquivos:
Para mais informações sobre dados GRCh37, consulte o documento GRCh37 NCBI e o arquivo README no FTP (links em inglês).
GRCh37lite: o GRCh37lite é um subconjunto do conjunto completo de referência GRCh37 mais a sequência de referência do genoma mitocondrial humano em um único arquivo:
Para mais informações sobre os dados do GRCh37lite, consulte o arquivo README no FTP.
GRCh38: o Genome Reference Consortium Human Build 38 inclui dados dos seguintes arquivos:
- Cromossomos montados
- Estruturas (scaffolds) não localizadas
- Estruturas (scaffolds) não colocadas
- Referências não nucleares
Para mais informações sobre dados GRCh38, consulte o documento GRCh38 NCBI e o arquivo README no FTP (links em inglês).
GRCh38 da Verily (em inglês): o genoma de referência GRCh38 da Verily é totalmente compatível com qualquer genoma b38 no autossomo. Os seguintes recursos estão incluídos:
- Exclui todas as sequências de patch.
- Omite cromossomos de haplótipos alternativos
- Inclui sequências de proteção
- Mascara cópias duplicadas de regiões centroméricas
O conjunto base é GRCh38_no_alt_plus_hs38d1, criado especificamente para análise. Suas justificativas e modificações genômicas exatas estão documentadas em seu arquivo README (em inglês).
A Verily aplicou as seguintes modificações ao conjunto da base:
Os nomes de segmentos de referência são prefixados com
chr
. Muitos dos arquivos de dados extras são fornecidos pelo GENCODE, que usa a convenção de nomenclatura "chr".Todos os 74 códigos IUPAC estendidos são convertidos para o primeiro par de base alfabética correspondente, conforme recomendado na especificação do VCF 4.3.
Esta versão da referência do genoma é denominada
GRCh38_Verily_v1
.
hg19: semelhante ao GRCh37, este é o conjunto de fevereiro de 2009 do genoma humano com uma sequência mitocondrial diferente e outros conjuntos alternativos de haplótipos. Os dados de hg19 são hospedados pelo site de FTP da UCSC (links em inglês).
Para mais informações sobre dados de hg19, consulte o arquivo README no FTP.
hs37d5: inclui dados de GRCh37, a sequência mitocondrial de rCRS, herpesvírus humano 4 tipo 1 e as sequências concatenadas de proteção. Os dados estão em um único arquivo, hs37d5.fa.gz, hospedado pelo site FTP da EBI (links em inglês).
Para mais informações sobre dados do hs37d5, consulte o arquivo README no FTP.
b37: o genoma de referência do b37 é incluído por algumas versões do software GATK, que inclui dados do GRCh37, a sequência mitocondrial do rCRS e o herpesvírus humano 4 tipo 1. O conjunto de dados b37 é hospedado pelo site FTP do Broad Institute (links em inglês).
Para mais informações sobre os dados de b37, consulte as Perguntas frequentes do GATK.
Uso: esses conjuntos de dados estão disponíveis ao público conforme os termos fornecidos pelas fontes dos conjuntos de dados (https://www.ncbi.nlm.nih.gov/, https://cse.ucsc.edu/, http://www.internationalgenome.org/data e https://www.broadinstitute.org/ [links em inglês]) e são concedidos "NO ESTADO EM QUE SE ENCONTRAM", sem garantia expressa ou implícita do Google. O Google isenta-se de qualquer responsabilidade por quaisquer danos, diretos ou indiretos, decorrentes do uso dos conjuntos de dados.