Banco de dados de agregação do Genome

O Banco de dados de agregação do Genome (gnomAD) é mantido por uma coalizão internacional de investidores para agregar e harmonizar dados de projetos de sequenciamento em grande escala.

Esses conjuntos de dados públicos estão disponíveis no formato VCF nos buckets do Cloud Storage e no BigQuery como tabelas particionadas por intervalo de números inteiros. Cada conjunto de dados é fragmentado por cromossomo. Isso significa que as variantes são distribuídas em 24 tabelas (indicadas com o sufixo "__chr*"). O uso de tabelas fragmentadas reduz os custos de consulta de maneira significativa.

A Variant Transforms foi usada para processar esses arquivos VCF e importá-los para o BigQuery. As anotações VEP foram analisadas em colunas separadas para facilitar a análise usando o suporte a anotações da Variant Transforms.

Acesso ao conjunto de dados

Pastas do Cloud Storage

Os arquivos a seguir estão disponíveis no bucket gcp-public-data--gnomad do Cloud Storage:

Conjuntos de dados do BigQuery

É possível acessar o conjunto de dados do gnomAD no BigQuery para exploração de dados e consulta dos seguintes itens:

  • Exomas da versão 2.1.1
  • Genomas da versão 2.1.1
  • Genomas da versão 3.0

O conjunto de dados também está disponível nas seguintes regiões:

Sobre o conjunto de dados

O conjunto de dados v2 (GRCh37/hg19) abrange 125.748 sequências de exoma e 15.708 sequências de genoma inteiro de indivíduos não relacionados sequenciados como parte de vários estudos de genética e específica da doença. O conjunto de dados v3 (GRCh38) abrange 71.702 genomas, selecionados como v2.

Mais informações sobre o conjunto de dados do BigQuery e as consultas de amostra estão disponíveis no Google Cloud Marketplace.

Origem do conjunto de dados:

Uso: consulte o site do Broad Institute para ver os Termos de Uso completos do conjunto de dados. Os dados são fornecidos "NO ESTADO EM QUE SE ENCONTRA", sem garantia expressa ou implícita do Google. O Google isenta-se de qualquer responsabilidade por quaisquer danos, diretos ou indiretos, decorrentes do uso dos conjuntos de dados.