Genom Referensi

Genom Referensi, seperti GRCh37, GRCh37lite, GRCh38, hg19, hs37d5, dan b37, tersedia di Google Cloud.

Akses set data

Folder Cloud Storage

File berikut tersedia di bucket Cloud Storage genomics-public-data:

Tentang set data

Sumber set data:

  • GRCh37: Genome Reference Consortium Human Build 37 menyertakan data dari file berikut:

    Untuk informasi selengkapnya tentang data GRCh37, lihat makalah NCBI GRCh37 dan README FTP.

  • GRCh37lite: GRCh37lite adalah subset dari kumpulan referensi GRCh37 lengkap ditambah urutan referensi genom mitokondria manusia dalam satu file:

    Untuk informasi selengkapnya tentang data GRCh37lite, lihat README FTP.

  • GRCh38: Genome Reference Consortium Human Build 38 menyertakan data dari file berikut:

    Untuk informasi selengkapnya tentang data GRCh38, lihat makalah NCBI GRCh38 dan README FTP.

  • Verily GRCh38: Genom referensi GRCh38 Verily sepenuhnya kompatibel dengan genom b38 apa pun di autosom. Fitur ini memiliki fitur berikut:

    • Mengecualikan semua urutan patch
    • Menghilangkan kromosom haplotype alternatif
    • Menyertakan urutan umpan
    • Menyamarkan salinan duplikat wilayah sentromerik

    Rakitan dasar adalah GRCh38_no_alt_plus_hs38d1, yang dibuat khusus untuk analisis. Alasannya dan modifikasi genomnya yang tepat didokumentasikan dalam file README.

    Verily menerapkan modifikasi berikut pada assembly dasar:

    • Nama segmen referensi diawali dengan chr. Banyak file data tambahan ini disediakan oleh GENCODE, yang menggunakan konvensi penamaan "chr".

    • Ke-74 kode IUPAC yang diperluas dikonversi menjadi pasangan dasar alfabet yang cocok pertama seperti yang direkomendasikan dalam spesifikasi VCF 4.3.

    • Rilis referensi genom ini diberi nama GRCh38_Verily_v1.

  • hg19: Mirip dengan GRCh37, ini adalah assembly genom manusia pada bulan Februari 2009 dengan urutan mitokondria yang berbeda dan rakitan haplotype alternatif tambahan. Data hg19 dihosting oleh situs FTP UCSC.

    Untuk mengetahui informasi selengkapnya tentang data hg19, baca README FTP.

  • hs37d5: Mencakup data dari GRCh37, urutan mitokondria rCRS, Human herpesvirus 4 tipe 1, dan urutan umpan gabungan. Data berada dalam satu file, hs37d5.fa.gz, yang dihosting oleh situs EBI FTP.

    Untuk informasi selengkapnya tentang data hs37d5, baca README FTP.

  • b37: Genom referensi b37 disertakan oleh beberapa versi software GATK, yang mencakup data dari GRCh37, urutan mitokondria rCRS, dan Human herpesvirus 4 tipe 1. Set data b37 dihosting oleh situs FTP Broad Institute.

    Untuk mengetahui informasi selengkapnya tentang data b37, lihat FAQ GATK.

Penggunaan: Set data ini tersedia secara publik bagi siapa saja untuk digunakan berdasarkan persyaratan yang disediakan oleh sumber set data (https://www.ncbi.nlm.nih.gov/, https://cse.ucsc.edu/, http://www.internationalgenome.org/data, https://www.broadinstitute.org/) dan disediakan "SEBAGAIMANA ADANYA" atau tanpa jaminan tersurat dari Google. Google tidak bertanggung jawab atas kerusakan apa pun, baik secara langsung maupun tidak langsung, yang diakibatkan oleh penggunaan set data ini.