Membaca data menggunakan htsget

Halaman ini menjelaskan cara menggunakan penerapan protokol htsget oleh Google untuk melakukan tugas berikut:

  • Membaca data yang tersimpan di Cloud Storage.
  • Baca data dari sumber publik seperti cerminan Google dari 1000 Genomes Project.

Protokol htsget ditentukan oleh Global Alliance for Genomics and Health (GA4GH).

Dengan implementasi htsget Google, Anda dapat mengakses dan membagikan data yang tersimpan di project cloud Anda sendiri tanpa menyalin file besar ke dan dari virtual machine Compute Engine.

Membaca data publik

Untuk memulai server htsget, jalankan perintah berikut:

docker network create test
docker run -d --network=test --name=htsget gcr.io/cloud-lifesciences/htsget

Dengan menjalankan perintah ini, server akan dihubungkan ke jaringan container Docker lokal yang bernama "test". Setelah server dimulai, Anda dapat mengaksesnya menggunakan software apa pun yang berkomunikasi menggunakan protokol htsget GA4GH.

Jalankan perintah berikut untuk melihat statistik tentang rentang kecil pada kromosom 11 pada genom publik:

docker run \
    --network=test gcr.io/cloud-lifesciences/samtools \
    flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"

Setelah beberapa detik, perintah tersebut memproses sekitar 1.500 pembacaan yang di-streaming dari file BAM yang disimpan di Cloud Storage:

1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)

Untuk mengetahui informasi selengkapnya tentang server htsget, termasuk informasi tentang mengakses data pribadi dan membatasi akses ke data Anda, lihat README htsget.