Esta página foi traduzida pela API Cloud Translation.

Projeto da Diversidade do Genoma Humano da Simons Foundation

Este conjunto de dados é fornecido pelo Projeto da Diversidade do Genoma Humano da Simons Foundation (SGDP) e compreende 279 genomas disponíveis ao público de 127 populações diversas. Consulte as seguintes publicações para maiores detalhes:

Publicação piloto: a sequência completa do genoma de um neandertal das montanhas de Altai
Publicação completa do conjunto de dados: Projeto da Diversidade do Genoma Humano da Simons Foundation: 300 genomas de 142 populações diferentes

Acesso ao conjunto de dados

Pastas do Cloud Storage

Os arquivos a seguir estão disponíveis no bucket genomics-public-data do Cloud Storage:

gs://genomics-public-data/simons-genome-diversity-project

Conjuntos de dados do BigQuery

Para conhecer e consultar os dados nos conjuntos de dados do BigQuery, acesse estes links:

Variantes: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants
Atributos de amostra: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes
Metadados de amostra: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata

Sobre o conjunto de dados

Conjunto de dados completo contendo 279 genomas

Os arquivos públicos de VCF do README (links em inglês) do SGSP foram extraídos para o bucket gs://genomics-public-data/simons-genome-diversity-project do Cloud Storage.

Os arquivos foram importados para o Cloud Life Sciences e as variantes foram exportadas para a tabela bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants do BigQuery.

Os metadados de amostra (em inglês) foram carregados na tabela do BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata executando os seguintes comandos:

wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt
# Strip blank lines from end of file and white space from end of lines.
sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \
    | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv
bq load --autodetect \
    simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv

Os metadados de amostra não usam os mesmos identificadores de amostra que os VCFs. Além disso, há uma linha faltando. Os atributos de amostra foram baixados de http://www.ebi.ac.uk/ena/data/view/PRJEB9586 (em inglês) e redimensionados para a tabela do BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes. Isso foi feito usando o script wrangle-simons-sample-attributes.R (em inglês). O script remapeia três amostras em que os IDs nos VCFs de origem não coincidem com o atributo Illumina ID correspondente em EBI (em inglês).

Uso: esse conjunto de dados está disponível ao público conforme os termos fornecidos pelas origens dos conjuntos de dados (https://www.hms.harvard.edu, https://www.simonsfoundation.org/simons-genome-diversity-project/) [links em inglês] e são concedidos "NO ESTADO EM QUE SE ENCONTRAM", sem garantia expressa ou implícita do Google. O Google isenta-se de qualquer responsabilidade por quaisquer danos, diretos ou indiretos, decorrentes do uso dos conjuntos de dados.

Projeto da Diversidade do Genoma Humano da Simons Foundation Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.