Genome Aggregation Database

Database Agregasi Genom (gnomAD) dikelola oleh koalisi internasional penyelidik untuk menggabungkan dan menyelaraskan data dari project pengurutan skala besar.

Set data publik ini tersedia dalam format VCF di bucket Cloud Storage dan di BigQuery sebagai tabel partisi rentang bilangan bulat. Setiap set data di-shard berdasarkan kromosom, yang berarti varian didistribusikan di 24 tabel (ditunjukkan dengan akhiran "__chr*"). Penggunaan tabel yang di-shard akan mengurangi biaya kueri secara signifikan.

Variant Transforms digunakan untuk memproses file VCF ini dan mengimpornya ke BigQuery. Anotasi VEP diuraikan ke dalam kolom terpisah untuk memudahkan analisis menggunakan dukungan anotasi Transformasi Varian.

Akses set data

Folder Cloud Storage

File berikut tersedia di bucket Cloud Storage gcp-public-data--gnomad:

Set data BigQuery

Anda dapat mengakses set data gnomAD di BigQuery untuk eksplorasi data dan membuat kueri untuk hal berikut:

  • Exome rilis 2.1.1
  • Genom rilis 2.1.1
  • Genom rilis 3.0

Set data ini juga tersedia di region berikut:

Tentang set data

Set data v2 (GRCh37/hg19) mencakup 125.748 urutan eksom dan 15.708 urutan genom lengkap dari individu yang tidak terkait yang diurutkan sebagai bagian dari berbagai studi genetik populasi dan khusus penyakit. Set data v3 (GRCh38) mencakup 71.702 genom, yang dipilih seperti di v2.

Informasi selengkapnya tentang set data BigQuery dan contoh kueri tersedia di Google Cloud Marketplace.

Sumber set data:

Penggunaan: Lihat situs Broad Institute untuk mengetahui persyaratan penggunaan lengkap set data. Data disediakan "APA ADANYA" tanpa jaminan apa pun, baik yang dinyatakan secara tersirat maupun tersurat, dari Google. Google tidak bertanggung jawab atas kerusakan apa pun, baik secara langsung maupun tidak langsung, akibat dari penggunaan set data.