Set data ini disediakan oleh Simons Genome Diversity Project (SGDP) dan terdiri dari 279 genom yang tersedia secara publik dari 127 populasi yang beragam. Lihat publikasi berikut untuk mengetahui detail lengkapnya:
- Publikasi uji coba: Urutan genom lengkap Neanderthal dari Pegunungan Altai
- Publikasi set data lengkap: Project Keragaman Genom Simons: 300 genom dari 142 populasi beragam
Akses set data
Folder Cloud Storage
File berikut tersedia di bucket Cloud Storage genomics-public-data
:
Set data BigQuery
Anda dapat mengakses set data berikut di BigQuery untuk eksplorasi dan kueri data:
- Varian: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants
- Contoh atribut: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes
- Contoh metadata: bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata
Tentang set data
Set data lengkap yang berisi 279 genom
File VCF publik dari README SGSP diekstrak ke bucket Cloud Storage gs://genomics-public-data/simons-genome-diversity-project.
File tersebut kemudian diimpor ke Cloud Life Sciences, dan variannya diekspor ke tabel BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants.
Metadata sampel dimuat ke dalam tabel BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata dengan menjalankan perintah berikut:
wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt # Strip blank lines from end of file and white space from end of lines. sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \ | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv bq load --autodetect \ simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv
Metadata sampel tidak menggunakan ID sampel yang sama dengan VCF,
dan juga tidak memiliki satu baris. Atribut sampelnya didownload
dari http://www.ebi.ac.uk/ena/data/view/PRJEB9586
dan dibentuk ulang menjadi
tabel BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes. Hal ini dilakukan menggunakan skrip wrangle-simons-sample-attributes.R
. Skrip memetakan ulang
tiga sampel yang ID-nya dalam VCF sumber tidak cocok dengan atribut
ID Illumina yang sesuai di EBI.
Penggunaan: Set data ini tersedia secara publik untuk digunakan oleh siapa saja berdasarkan persyaratan yang diberikan oleh sumber set data (https://www.hms.harvard.edu, https://www.simonsfoundation.org/simons-genome-diversity-project/) dan disediakan "APA ADANYA" tanpa jaminan apa pun, baik dinyatakan secara tersurat maupun tersirat, dari Google. Google tidak bertanggung jawab atas kerusakan apa pun, baik secara langsung maupun tidak langsung, akibat dari penggunaan set data.