Cet ensemble de données est fourni par le projet Simons Genome Diversity (SGDP) et comprend 279 génomes accessibles au public, issus de 127 populations différentes. Consultez les publications suivantes pour en savoir plus :
- Publication pilote : Le génome complet d'un Néandertalien issu des montagnes de l'Altaï
- Publication de l'ensemble de données complet : Le projet Simons Genome Diversity : 300 génomes provenant de 142 populations différentes
Accès à l'ensemble de données
Dossiers Cloud Storage
Les fichiers suivants sont disponibles dans le bucket Cloud Storage genomics-public-data
:
Ensembles de données BigQuery
Vous pouvez accéder aux ensembles de données suivants dans BigQuery pour l'exploration et l'interrogation de données :
- Variantes : bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants
- Attributs d'échantillons : bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes
- Métadonnées d'échantillons : bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata
À propos de l'ensemble de données
Ensemble de données complet contenant 279 génomes
Les fichiers VCF publics issus du fichier SGSP README ont été extraits vers le bucket Cloud Storage gs://genomics-public-data/simons-genome-diversity-project.
Les fichiers ont ensuite été importés vers Cloud Genomics et les variantes ont été exportées vers la table BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants.
Les métadonnées d'échantillons ont été chargées dans la table BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata en exécutant les commandes suivantes :
wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt # Strip blank lines from end of file and white space from end of lines. sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \ | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv bq load --autodetect \ simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv
Les métadonnées d'échantillons n'utilisent pas les mêmes identifiants d'échantillons que les fichiers VCF. Il leur manque également une ligne. Les attributs d'échantillons ont été téléchargés à partir de http://www.ebi.ac.uk/ena/data/view/PRJEB9586 et réorganisés dans la table BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes. Cette opération a été effectuée à l'aide du script wrangle-simons-sample-attributes.R
. Le script associe à nouveau trois échantillons dont les identifiants des fichiers VCF sources ne correspondaient pas à l'attribut d'identifiant d'Illumina sur EBI.
Utilisation : Cet ensemble de données est accessible au public selon les conditions définies par sa source (https://www.hms.harvard.edu, https://www.simonsfoundation.org/simons-genome-diversity-project/). Il est fourni "en l'état", sans aucune garantie expresse ou implicite de la part de Google. Google décline toute responsabilité pour tout dommage direct ou indirect résultant de l'utilisation de ces ensembles de données.