Set data ini disediakan oleh Simons Genome Diversity Project (SGDP) dan terdiri dari 279 genom yang tersedia untuk umum dari 127 populasi yang beragam. Lihat publikasi berikut untuk mengetahui detail lengkapnya:
- Publikasi uji coba: Urutan genom lengkap Neanderthal dari Pegunungan Altai
- Publikasi set data lengkap: The Simons Genome Diversity Project: 300 genom dari 142 populasi yang beragam
Akses set data
Folder Cloud Storage
File berikut tersedia di bucket Cloud Storage genomics-public-data
:
Set data BigQuery
Anda dapat mengakses set data berikut di BigQuery untuk eksplorasi data dan kueri:
- Varian: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants
- Contoh atribut: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes
- Contoh metadata: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata
Tentang set data
Set data lengkap yang berisi 279 genom
File VCF publik dari README SGSP diekstrak ke bucket Cloud Storage gs://genomics-public-data/simons-genome-diversity-project.
File tersebut kemudian diimpor ke Cloud Life Sciences, dan variannya diekspor ke tabel BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants.
Metadata sampel dimuat ke tabel BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata dengan menjalankan perintah berikut:
wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt # Strip blank lines from end of file and white space from end of lines. sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \ | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv bq load --autodetect \ simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv
Metadata contoh tidak menggunakan ID sampel yang sama seperti yang digunakan VCF,
dan juga tidak memiliki satu baris. Atribut sampelnya didownload dari http://www.ebi.ac.uk/ena/data/view/PRJEB9586 dan dibentuk ulang menjadi tabel BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes. Hal ini dilakukan menggunakan skrip wrangle-simons-sample-attributes.R
. Skrip memetakan ulang tiga sampel yang ID-nya dalam VCF sumber tidak cocok dengan atribut ID Illumina yang sesuai di EBI.
Penggunaan: Set data ini tersedia secara publik untuk digunakan oleh siapa saja berdasarkan persyaratan yang disediakan oleh sumber set data (https://www.hms.harvard.edu, https://www.simonsfoundation.org/simons-genome-diversity-project/) dan disediakan "APA ADANYA" tanpa jaminan apa pun, baik tersurat maupun tersirat, dari Google. Google tidak bertanggung jawab atas kerusakan apa pun, baik secara langsung maupun tidak langsung, yang diakibatkan oleh penggunaan set data ini.