Genome Aggregation Database

La Genome Aggregation Database (gnomAD) se mantiene mediante una coalición internacional de investigadores para agregar y armonizar los datos de proyectos de secuencia a gran escala.

Estos conjuntos de datos públicos están disponibles en formato VCF en los depósitos de Cloud Storage y en BigQuery como tablas particionadas de rango entero. Cada conjunto de datos se fragmenta por cromosoma, lo que significa que las variantes se distribuyen en 24 tablas (indicadas con el sufijo "__chr*"). El uso de las tablas fragmentadas reduce los costos de consultas de manera significativa.

Variant Transforms se usó para procesar estos archivos VCF y, luego, importarlos a BigQuery. Las anotaciones de VEP se analizaron en columnas separadas para un análisis más sencillo con la compatibilidad de anotaciones de Variant Transforms.

Acceso al conjunto de datos

Carpetas de Cloud Storage

Los siguientes archivos están disponibles en el depósito gcp-public-data--gnomad de Cloud Storage:

Conjuntos de datos de BigQuery

Puedes acceder al conjunto de datos gnomAD en BigQuery para explorar y consultar los datos:

  • Versión 2.1.1 de exomas
  • Versión 2.1.1 de genomas
  • Versión 3.0 de genomas

El conjunto de datos también está disponible en las siguientes regiones:

Acerca del conjunto de datos

El conjunto de datos v2 (GRCh37/hg19) abarca 125,748 secuencias de exoma, y 15,708 secuencias de genoma completo de personas no relacionadas, que forman parte de varios estudios genéticos específicos de la enfermedad y de la población. El conjunto de datos v3 (GRCh38) abarca 71,702 genomas, seleccionados como en v2.

En Google Cloud Marketplace, encontrarás más información sobre el conjunto de datos de BigQuery y las consultas de muestra.

Fuente del conjunto de datos:

Uso: consulta el sitio del Broad Institute para conocer todas las condiciones de uso del conjunto de datos. Los datos se proporcionan “COMO ESTÁN” sin ninguna garantía, expresa o implícita, de Google. Google rehúsa toda responsabilidad por cualquier daño, directo o indirecto, como resultado del uso de estos conjuntos de datos.