Genom Referensi, seperti GRCh37, GRCh37lite, GRCh38, hg19, hs37d5, dan b37, tersedia di Google Cloud.
Akses set data
Folder Cloud Storage
File berikut tersedia di bucket Cloud Storage genomics-public-data
:
Tentang set data
Sumber set data:
GRCh37: Genome Reference Consortium Human Build 37 menyertakan data dari file berikut:
Untuk informasi selengkapnya tentang data GRCh37, lihat makalah NCBI GRCh37 dan README FTP.
GRCh37lite: GRCh37lite adalah subset dari kumpulan referensi GRCh37 lengkap ditambah urutan referensi genom mitokondria manusia dalam satu file:
Untuk informasi selengkapnya tentang data GRCh37lite, lihat README FTP.
GRCh38: Genome Reference Consortium Human Build 38 menyertakan data dari file berikut:
- Kromosom yang telah dirakit
- Scaffold yang tidak dilokalkan
- Scaffold yang tidak ditempatkan
- Referensi non-nuklir
Untuk informasi selengkapnya tentang data GRCh38, lihat makalah NCBI GRCh38 dan README FTP.
GRCh38 Verily: Genom referensi GRCh38 Verily kompatibel sepenuhnya dengan genom b38 apa pun di autosom. Laporan ini memiliki fitur berikut:
- Tidak termasuk semua urutan patch
- Menghapus kromosom haplotipe alternatif
- Menyertakan urutan umpan
- Menyamarkan salinan duplikat wilayah sentromerik
Assembly dasarnya adalah GRCh38_no_alt_plus_hs38d1, yang dibuat khusus untuk analisis. Rasionalitas dan modifikasi genomik yang tepat didokumentasikan dalam file README.
Verily menerapkan modifikasi berikut ke assembly dasar:
Nama segmen referensi diawali dengan
chr
. Banyak file data tambahan yang disediakan oleh GENCODE, yang menggunakan konvensi penamaan "chr".Semua 74 kode IUPAC yang diperluas dikonversi ke pasangan basa alfabetik pertama yang cocok seperti yang direkomendasikan dalam spesifikasi VCF 4.3.
Rilis referensi genom ini diberi nama
GRCh38_Verily_v1
.
hg19: Serupa dengan GRCh37, ini adalah assembly genom manusia pada Februari 2009 dengan urutan mitokondria yang berbeda dan assembly haplotype alternatif tambahan. Data hg19 dihosting oleh situs FTP UCSC.
Untuk informasi selengkapnya tentang data hg19, lihat README FTP.
hs37d5: Menyertakan data dari GRCh37, urutan mitokondria rCRS, Human herpesvirus 4 type 1, dan urutan decoy yang digabungkan. Data ada dalam satu file, hs37d5.fa.gz, yang dihosting oleh situs FTP EBI.
Untuk informasi selengkapnya tentang data hs37d5, lihat README FTP.
b37: Genom referensi b37 disertakan oleh beberapa versi software GATK, yang mencakup data dari GRCh37, urutan mitokondria rCRS, dan Human herpesvirus 4 type 1. Set data b37 dihosting oleh situs FTP Broad Institute.
Untuk informasi selengkapnya tentang data b37, lihat FAQ GATK.
Penggunaan: Set data ini tersedia secara publik untuk digunakan oleh siapa saja berdasarkan persyaratan yang diberikan oleh sumber set data (https://www.ncbi.nlm.nih.gov/, https://cse.ucsc.edu/, http://www.internationalgenome.org/data, https://www.broadinstitute.org/) dan diberikan "SEBAGAIMANA ADANYA" tanpa jaminan apa pun, baik tersurat maupun tersirat, dari Google. Google tidak bertanggung jawab atas kerusakan apa pun, baik secara langsung maupun tidak langsung, akibat dari penggunaan set data.