Database Agregasi Genom

Genome Aggregation Database (gnomAD) dikelola oleh koalisi penyelidik internasional untuk menggabungkan dan menyelaraskan data dari project pengurutan berskala besar.

Set data publik ini tersedia dalam format VCF di bucket Cloud Storage dan di BigQuery sebagai tabel dengan partisi dengan rentang bilangan bulat. Setiap set data di-sharding oleh kromosom, yang berarti varian didistribusikan ke 24 tabel (ditunjukkan dengan akhiran "__chr*"). Penggunaan tabel sharding dapat mengurangi biaya kueri secara signifikan.

Variant Transforms digunakan untuk memproses file VCF ini dan mengimpornya ke BigQuery. Anotasi VEP diuraikan menjadi kolom terpisah untuk memudahkan analisis menggunakan dukungan anotasi Variant Transforms.

Akses set data

Folder Cloud Storage

File berikut tersedia di bucket Cloud Storage gcp-public-data--gnomad:

Set data BigQuery

Anda dapat mengakses set data gnomAD di BigQuery untuk eksplorasi data dan kueri hal berikut:

  • Rilis eksom 2.1.1
  • Melepaskan genom 2.1.1
  • Merilis genom 3.0

Set data juga tersedia di region berikut:

Tentang set data

Set data v2 (GRCh37/hg19) mencakup 125.748 urutan exome dan 15.708 urutan seluruh genom dari individu yang tidak terkait yang diurutkan sebagai bagian dari berbagai studi genetika spesifik penyakit dan populasi. Set data v3 (GRCh38) mencakup 71.702 genom, yang dipilih seperti pada v2.

Informasi selengkapnya tentang set data BigQuery dan contoh kueri tersedia di Google Cloud Marketplace.

Sumber set data:

Penggunaan: Lihat situs Broad Institute untuk mengetahui persyaratan penggunaan lengkap set data. Data disediakan "APA ADANYA" tanpa jaminan apa pun, baik tersurat maupun tersirat, dari Google. Google tidak bertanggung jawab atas segala kerusakan, baik secara langsung maupun tidak langsung, yang disebabkan oleh penggunaan set data ini.