Project Keragaman Genom Simons

Set data ini disediakan oleh Simons Genome Diversity Project (SGDP) dan terdiri dari 279 genom yang tersedia untuk umum dari 127 populasi yang beragam. Lihat publikasi berikut untuk mengetahui detail lengkapnya:

Akses set data

Folder Cloud Storage

File berikut tersedia di bucket Cloud Storage genomics-public-data:

Set data BigQuery

Anda dapat mengakses set data berikut di BigQuery untuk eksplorasi data dan kueri:

Tentang set data

Set data lengkap yang berisi 279 genom

File VCF publik dari README SGSP diekstrak ke bucket Cloud Storage gs://genomics-public-data/simons-genome-diversity-project.

File tersebut kemudian diimpor ke Cloud Life Sciences, dan variannya diekspor ke tabel BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants.

Metadata sampel dimuat ke tabel BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata dengan menjalankan perintah berikut:

wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt
# Strip blank lines from end of file and white space from end of lines.
sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \
    | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv
bq load --autodetect \
    simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv

Metadata contoh tidak menggunakan ID sampel yang sama seperti yang digunakan VCF, dan juga tidak memiliki satu baris. Atribut sampelnya didownload dari http://www.ebi.ac.uk/ena/data/view/PRJEB9586 dan dibentuk ulang menjadi tabel BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes. Hal ini dilakukan menggunakan skrip wrangle-simons-sample-attributes.R. Skrip memetakan ulang tiga sampel yang ID-nya dalam VCF sumber tidak cocok dengan atribut ID Illumina yang sesuai di EBI.

Penggunaan: Set data ini tersedia secara publik untuk digunakan oleh siapa saja berdasarkan persyaratan yang disediakan oleh sumber set data (https://www.hms.harvard.edu, https://www.simonsfoundation.org/simons-genome-diversity-project/) dan disediakan "APA ADANYA" tanpa jaminan apa pun, baik tersurat maupun tersirat, dari Google. Google tidak bertanggung jawab atas kerusakan apa pun, baik secara langsung maupun tidak langsung, yang diakibatkan oleh penggunaan set data ini.