Este conjunto de dados é fornecido pelo Projeto da Diversidade do Genoma Humano da Simons Foundation (SGDP) e compreende 279 genomas disponíveis ao público de 127 populações diversas. Consulte as seguintes publicações para maiores detalhes:
- Publicação piloto: a sequência completa do genoma de um neandertal das montanhas de Altai
- Publicação completa do conjunto de dados: Projeto da Diversidade do Genoma Humano da Simons Foundation: 300 genomas de 142 populações diferentes
Acesso ao conjunto de dados
Pastas do Cloud Storage
Os arquivos a seguir estão disponíveis no bucket genomics-public-data
do Cloud Storage:
Conjuntos de dados do BigQuery
Para conhecer e consultar os dados nos conjuntos de dados do BigQuery, acesse estes links:
- Variantes: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants
- Atributos de amostra: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes
- Metadados de amostra: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata
Sobre o conjunto de dados
Conjunto de dados completo contendo 279 genomas
Os arquivos públicos de VCF do README (links em inglês) do SGSP foram extraídos para o bucket gs://genomics-public-data/simons-genome-diversity-project do Cloud Storage.
Os arquivos foram importados para o Cloud Life Sciences e as variantes foram exportadas para a tabela bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants do BigQuery.
Os metadados de amostra (em inglês) foram carregados na tabela do BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata executando os seguintes comandos:
wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt # Strip blank lines from end of file and white space from end of lines. sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \ | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv bq load --autodetect \ simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv
Os metadados de amostra não usam os mesmos identificadores de amostra que os VCFs. Além disso, há uma linha faltando. Os atributos de amostra foram baixados de http://www.ebi.ac.uk/ena/data/view/PRJEB9586 (em inglês) e redimensionados para a tabela do BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes. Isso foi feito usando o script wrangle-simons-sample-attributes.R
(em inglês). O script remapeia três amostras em que os IDs nos VCFs de origem não coincidem com o atributo Illumina ID correspondente em EBI (em inglês).
Uso: esse conjunto de dados está disponível ao público conforme os termos fornecidos pelas origens dos conjuntos de dados (https://www.hms.harvard.edu, https://www.simonsfoundation.org/simons-genome-diversity-project/) [links em inglês] e são concedidos "NO ESTADO EM QUE SE ENCONTRAM", sem garantia expressa ou implícita do Google. O Google isenta-se de qualquer responsabilidade por quaisquer danos, diretos ou indiretos, decorrentes do uso dos conjuntos de dados.