Simons Genome Diversity Project

Questo set di dati è fornito dal Simons Genome Diversity Project (SGDP) e comprende 279 genomi disponibili pubblicamente di 127 popolazioni diverse. Per informazioni dettagliate, consulta le seguenti pubblicazioni:

Accesso a set di dati

Cartelle di Cloud Storage

Nel bucket Cloud Storage genomics-public-data sono disponibili i seguenti file:

Set di dati di BigQuery

Puoi accedere ai seguenti set di dati in BigQuery per esplorare i dati ed eseguire query:

Informazioni sul set di dati

Set di dati completo contenente 279 genomi

I file VCF pubblici del file SGSP README sono stati estratti nel bucket Cloud Storage gs://genomics-public-data/simons-genome-diversity-project.

I file sono stati poi importati in Cloud Life Sciences e le varianti sono state esportate nella tabella BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants.

I metadati di esempio sono stati caricati nella tabella BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata eseguendo questi comandi:

wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt
# Strip blank lines from end of file and white space from end of lines.
sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \
    | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv
bq load --autodetect \
    simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv

I metadati di esempio non utilizzano gli stessi identificatori di esempio dei VCF e manca anche una riga. I relativi attributi di esempio sono stati scaricati da http://www.ebi.ac.uk/ena/data/view/PRJEB9586 e rimodellati nella tabella BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes. Questa operazione è stata eseguita utilizzando lo script wrangle-simons-sample-attributes.R. Lo script rimappa tre campioni i cui ID nei VCF di origine non corrispondono all'attributo ID Illumina corrispondente in EBI.

Utilizzo: questo set di dati è disponibile pubblicamente per l'utilizzo ai sensi dei termini forniti dalle fonti dei set di dati (https://www.hms.harvard.edu, https://www.simonsfoundation.org/simons-genome-diversity-project/) e viene fornito "così com'è", senza alcuna garanzia, espressa o implicita, da parte di Google. Google esclude qualsiasi responsabilità per eventuali danni, diretti o indiretti, derivanti dall'uso dei set di dati.