Halaman ini menjelaskan cara menggunakan penerapan protokol htsget Google untuk melakukan tugas berikut:
- Membaca data yang disimpan di Cloud Storage.
- Membaca data dari sumber publik seperti mirror 1000 Genomes Project Google.
Protokol htsget ditentukan oleh Global Alliance for Genomics and Health (GA4GH).
Implementasi htsget Google memungkinkan Anda mengakses dan membagikan data yang disimpan di project cloud Anda sendiri tanpa menyalin file besar ke dan dari mesin virtual Compute Engine.
Membaca data publik
Untuk memulai server htsget, jalankan perintah berikut:
docker network create test
docker run -d --network=test --name=htsget gcr.io/cloud-lifesciences/htsget
Menjalankan perintah akan melampirkan server ke jaringan penampung Docker lokal yang bernama "test". Setelah server dimulai, Anda dapat mengaksesnya menggunakan software apa pun yang berkomunikasi menggunakan protokol htsget GA4GH.
Jalankan perintah berikut untuk melihat statistik tentang rentang kecil pada kromosom 11 pada genom publik:
docker run \
--network=test gcr.io/cloud-lifesciences/samtools \
flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"
Setelah beberapa detik, perintah akan memproses sekitar 1.500 pembacaan yang di-streaming dari file BAM yang disimpan di Cloud Storage:
1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)
Untuk mengetahui informasi selengkapnya tentang server htsget, termasuk informasi tentang mengakses data pribadi dan membatasi akses ke data Anda, lihat README htsget.