Genomas de referencia

Los genomas de referencia, como GRCh37, GRCh37lite, GRCh38, hg19, hs37d5 y b37, están disponibles en Google Cloud Platform.

Acceso al conjunto de datos

Carpetas de Cloud Storage

Los archivos siguientes están disponibles en el depósito genomics-public-data de Cloud Storage:

Acerca del conjunto de datos

Fuente del conjunto de datos:

  • GRCh37: La referencia 37 del genoma humano ensamblada por el Genome Reference Consortium incluye datos de los siguientes archivos:

    Para obtener más información acerca de los datos del GRCh37, consulta el informe del NCBI sobre el GRCh37 y el README de FTP.

  • GRCh37lite: GRCh37lite es un subconjunto del conjunto completo de referencias de GRCh37 más la secuencia de referencias del genoma mitocondrial humano.

    Para obtener más información acerca de los datos del GRCh37lite, consulta el archivo README de FTP.

  • GRCh38: La referencia 38 del genoma humano ensamblada por el Genome Reference Consortium incluye datos de los siguientes archivos:

    Para obtener más información acerca de los datos del GRCh38, consulta el informe del NCBI sobre el GRCh38 y el archivo README de FTP.

  • GRCh38 de Verily: El genoma de referencia GRCh38 de Verily es completamente compatible con cualquier genoma b38 en el autosoma. Tiene las características siguientes:

    • Excluye todas las secuencias de parche
    • Omite cromosomas haplotipos alternativos
    • Incluye secuencias señuelo
    • Enmascara copias duplicadas de regiones centroméricas

    En ensamblaje base es GRCh38_no_alt_plus_hs38d1, que fue creado específicamente para el análisis. Su lógica y modificaciones genómicas exactas están documentadas en su archivo README.

    Verily aplicó las modificaciones siguientes al ensamblaje base:

    • Los nombres de segmentos de referencia llevan el prefijo chr. Muchos de los archivos de datos adicionales provienen de GENCODE, que utiliza la convención de nombramiento de "chr".

    • Los 74 códigos IUPAC extendidos se convierten en el primer par de bases alfabético coincidente, como se recomienda en la especificación de VCF 4.3.

    • Esta versión de la referencia del genoma se denomina GRCh38_Verily_v1.

  • hg19: Similar al GRCh37, es el ensamblaje de febrero de 2009 del genoma humano con una secuencia mitocondrial diferente y ensamblajes de haplotipos alternativos adicionales. Los datos del hg19 están alojados en el sitio de FTP de la UCSC.

    Para obtener más información acerca de los datos del hg19, consulta el archivo README de FTP.

  • hs37d5: Incluye datos del GRCh37, la secuencia mitocondrial de la rCRS, el herpes virus humano 4 tipo 1 y las secuencias señuelo concatenadas. Los datos están en un archivo, hs37d5.fa.gz, alojado en el sitio de FTP del EBI.

    Para obtener más información acerca de los datos del hs37d5, consulta el archivo README de FTP.

  • b37: El genoma de referencia b37 está incluido en algunas versiones del software de GATK, que incluye datos del GRCh37, la secuencia mitocondrial de la rCRS y el herpes virus humano 4 tipo 1. El conjunto de datos del b37 está alojado en el sitio de FTP del Instituto Broad.

    Para obtener más información acerca de los datos del b37, consulta las preguntas frecuentes de GATK.

Uso: Estos conjuntos de datos están disponibles públicamente para su uso por parte de cualquier persona de conformidad con las condiciones que proveen las fuentes de los conjuntos de datos (https://www.ncbi.nlm.nih.gov/, https://cse.ucsc.edu/, http://www.internationalgenome.org/data y https://www.broadinstitute.org/) y se proporcionan "COMO ESTÁN", sin ninguna garantía por parte de Google, ni explícita ni implícita. Google renuncia a toda responsabilidad por cualquier daño, directo o indirecto, como resultado del uso de estos conjuntos de datos.

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Cloud Life Sciences