Genomas de referencia

Google Cloud cuenta con varios genomas de referencia, como GRCh37, GRCh37lite, GRCh38, hg19, hs37d5 y b37.

Acceso al conjunto de datos

Carpetas de Cloud Storage

Los siguientes archivos están disponibles en el depósito genomics-public-data de Cloud Storage:

Acerca del conjunto de datos

Fuente del conjunto de datos:

  • GRCh37: La referencia 37 del genoma humano ensamblada por el Genome Reference Consortium incluye datos de los siguientes archivos:

    Para obtener más información acerca de los datos del GRCh37, consulta el informe del NCBI sobre el GRCh37 y el archivo README del FTP.

  • GRCh37lite: GRCh37lite es un subconjunto del conjunto completo de referencias de GRCh37 más la secuencia de referencias del genoma mitocondrial humano.

    Para obtener más información acerca de los datos del GRCh37lite, consulta el archivo README de FTP.

  • GRCh38: La referencia 38 del genoma humano ensamblada por el Genome Reference Consortium incluye datos de los siguientes archivos:

    Para obtener más información acerca de los datos del GRCh38, consulta el informe del NCBI sobre el GRCh38 y el archivo README del FTP.

  • GRCh38 de Verily: El genoma de referencia GRCh38 de Verily es completamente compatible con cualquier genoma b38 del autosoma. Tiene las características siguientes:

    • Excluye todas las secuencias de parche
    • Omite cromosomas haplotipos alternativos
    • Incluye secuencias señuelo
    • Enmascara copias duplicadas de regiones centroméricas

    En ensamblaje base es GRCh38_no_alt_plus_hs38d1, que fue creado específicamente para el análisis. La lógica y las modificaciones genómicas exactas se documentan en su archivo README.

    Verily aplicó las modificaciones siguientes al ensamblaje base:

    • Los nombres de los segmentos de referencia tienen el prefijo chr. Muchos de los archivos de datos adicionales provienen de GENCODE, que utiliza la convención de nomenclatura "chr".

    • Los 74 códigos IUPAC extendidos se convierten en el primer par de bases alfabético coincidente, como se recomienda en la especificación de VCF 4.3.

    • Esta versión de la referencia del genoma se llama GRCh38_Verily_v1.

  • hg19: Similar al GRCh37, es el ensamblaje de febrero de 2009 del genoma humano con una secuencia mitocondrial diferente y otros ensamblajes de haplotipos alternativos. Los datos del hg19 están alojados en el sitio de FTP de la UCSC.

    Para obtener más información acerca de los datos del hg19, consulta el archivo README de FTP.

  • hs37d5: Incluye datos del GRCh37, la secuencia mitocondrial de la rCRS, el herpes virus humano 4 tipo 1 y las secuencias señuelo concatenadas. Los datos están en un archivo con el nombre hs37d5.fa.gz alojado en el sitio de FTP del EBI.

    Para obtener más información acerca de los datos del hs37d5, consulta el archivo README de FTP.

  • b37: El genoma de referencia b37 está incluido en algunas versiones del software de GATK, que incluye datos del GRCh37, la secuencia mitocondrial de la rCRS y el herpes virus humano 4 tipo 1. El conjunto de datos del b37 está alojado en el sitio de FTP del Broad Institute.

    Para obtener más información acerca de los datos del b37, consulta las preguntas frecuentes de GATK.

Uso: Estos conjuntos de datos están disponibles públicamente para que los use cualquier persona de conformidad con las condiciones que proveen las fuentes de los conjuntos de datos (https://www.ncbi.nlm.nih.gov/, https://cse.ucsc.edu/, http://www.internationalgenome.org/data y https://www.broadinstitute.org/) y se proporcionan "COMO ESTÁN", sin ninguna garantía por parte de Google, ni explícita ni implícita. Google rehúsa toda responsabilidad por cualquier daño, directo o indirecto, como resultado del uso de estos conjuntos de datos.