Projet Simons Genome Diversity

Cet ensemble de données est fourni par le projet Simons Genome Diversity (SGDP) et comprend 279 génomes accessibles au public, issus de 127 populations différentes. Consultez les publications suivantes pour en savoir plus :

Accès à l'ensemble de données

Dossiers Cloud Storage

Les fichiers suivants sont disponibles dans le bucket Cloud Storage genomics-public-data :

Ensembles de données BigQuery

Vous pouvez accéder aux ensembles de données suivants dans BigQuery pour l'exploration et l'interrogation de données :

À propos de l'ensemble de données

Ensemble de données complet contenant 279 génomes

Les fichiers VCF publics issus du fichier SGSP README ont été extraits vers le bucket Cloud Storage gs://genomics-public-data/simons-genome-diversity-project.

Les fichiers ont ensuite été importés vers Cloud Genomics et les variantes ont été exportées vers la table BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants.

Les métadonnées d'échantillons ont été chargées dans la table BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata en exécutant les commandes suivantes :

wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt
# Strip blank lines from end of file and white space from end of lines.
sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \
    | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv
bq load --autodetect \
    simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv

Les métadonnées d'échantillons n'utilisent pas les mêmes identifiants d'échantillons que les fichiers VCF. Il leur manque également une ligne. Les attributs d'échantillons ont été téléchargés à partir de http://www.ebi.ac.uk/ena/data/view/PRJEB9586 et réorganisés dans la table BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes. Cette opération a été effectuée à l'aide du script wrangle-simons-sample-attributes.R. Le script associe à nouveau trois échantillons dont les identifiants des fichiers VCF sources ne correspondaient pas à l'attribut d'identifiant d'Illumina sur EBI.

Utilisation : Cet ensemble de données est accessible au public selon les conditions définies par sa source (https://www.hms.harvard.edu, https://www.simonsfoundation.org/simons-genome-diversity-project/). Il est fourni "en l'état", sans aucune garantie expresse ou implicite de la part de Google. Google décline toute responsabilité pour tout dommage direct ou indirect résultant de l'utilisation de ces ensembles de données.