Questo set di dati è fornito dal Simons Genome Diversity Project (SGDP) e comprende 279 genomi disponibili pubblicamente per 127 popolazioni diverse. Per informazioni dettagliate, consulta le seguenti pubblicazioni:
- Pubblicazione del progetto pilota: la sequenza genomica completa di un Neanderthal dalle montagne dell'Altai
- Pubblicazione completa del set di dati: The Simons Genome Diversity Project: 300 genomi da 142 popolazioni diverse
Accesso a set di dati
Cartelle Cloud Storage
I seguenti file sono disponibili nel bucket Cloud Storage genomics-public-data
:
Set di dati BigQuery
Puoi accedere ai seguenti set di dati in BigQuery per l'esplorazione dei dati e l'esecuzione di query:
- Varianti: bigquery-public-data:umano_genome_varianti.simons_genome_diversity_project_sample_variants
- Attributi di esempio: bigquery-public-data:umano_genome_varianti.simons_genome_diversity_project_sample_attributes
- Metadati di esempio: bigquery-public-data:umano_genome_varianti.simons_genome_diversity_project_sample_metadata
Informazioni sul set di dati
Set di dati completo contenente 279 genomi
I file VCF pubblici del file README di SGSP sono stati estratti nel bucket Cloud://genomics-public-data/simons-genome-diversity-project di Cloud Storage.
I file sono stati quindi importati in Cloud Life Sciences e le varianti sono state esportate nella tabella BigQuery di bigquery-public-data:umano_genome_varianti.simons_genome_diversity_project_sample_variants.
I metadati di esempio sono stati caricati nella tabella BigQuery bigquery-public-data:man_genome_variants.simons_genome_diversity_project_sample_samples eseguendo i seguenti comandi:
wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt # Strip blank lines from end of file and white space from end of lines. sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \ | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv bq load --autodetect \ simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv
I metadati di esempio non utilizzano gli stessi identificatori di esempio delle VCF e manca anche una riga. I relativi attributi di esempio sono stati scaricati
da http://www.ebi.ac.uk/ena/data/view/PRJEB9586 e riformattati nella bigquery-public-data:umano_genome_varianti.simons_genome_diversity_project_sample_attributes
tabella BigQuery. Per farlo, utilizza lo script wrangle-simons-sample-attributes.R
. Lo script rimappa tre esempi i cui ID nelle VCF di origine non corrispondevano all'attributo ID illuminante corrispondente su EBI.
Utilizzo: questo set di dati è disponibile pubblicamente per qualsiasi utilizzo ai sensi dei termini forniti dalle origini del set di dati (https://www.hms.harvard.edu, https://www.simonsfoundation.org/simons-genome-diversity-project/) e viene fornito "così com'è" senza alcuna garanzia, espressa o implicita, da parte di Google. Google esclude qualsiasi responsabilità per eventuali danni, diretti o indiretti, derivanti dall'uso dei set di dati.