Projeto da Diversidade do Genoma Humano da Simons Foundation

Este conjunto de dados é fornecido pelo Projeto da Diversidade do Genoma Humano da Simons Foundation (SGDP) e compreende 279 genomas disponíveis ao público de 127 populações diversas. Consulte as seguintes publicações para maiores detalhes:

Acesso ao conjunto de dados

Pastas do Cloud Storage

Os arquivos a seguir estão disponíveis no bucket genomics-public-data do Cloud Storage:

Conjuntos de dados do BigQuery

Para conhecer e consultar os dados nos conjuntos de dados do BigQuery, acesse estes links:

Sobre o conjunto de dados

Conjunto de dados completo contendo 279 genomas

Os arquivos públicos de VCF do README (links em inglês) do SGSP foram extraídos para o bucket gs://genomics-public-data/simons-genome-diversity-project do Cloud Storage.

Os arquivos foram importados para o Cloud Life Sciences e as variantes foram exportadas para a tabela bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants do BigQuery.

Os metadados de amostra (em inglês) foram carregados na tabela do BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata executando os seguintes comandos:

wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt
# Strip blank lines from end of file and white space from end of lines.
sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \
    | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv
bq load --autodetect \
    simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv

Os metadados de amostra não usam os mesmos identificadores de amostra que os VCFs. Além disso, há uma linha faltando. Os atributos de amostra foram baixados de http://www.ebi.ac.uk/ena/data/view/PRJEB9586 (em inglês) e redimensionados para a tabela do BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes. Isso foi feito usando o script wrangle-simons-sample-attributes.R (em inglês). O script remapeia três amostras em que os IDs nos VCFs de origem não coincidem com o atributo Illumina ID correspondente em EBI (em inglês).

Uso: esse conjunto de dados está disponível ao público conforme os termos fornecidos pelas origens dos conjuntos de dados (https://www.hms.harvard.edu, https://www.simonsfoundation.org/simons-genome-diversity-project/) [links em inglês] e são concedidos "NO ESTADO EM QUE SE ENCONTRAM", sem garantia expressa ou implícita do Google. O Google isenta-se de qualquer responsabilidade por quaisquer danos, diretos ou indiretos, decorrentes do uso dos conjuntos de dados.