本頁面說明如何使用 Google 實作的 htsget 通訊協定,執行下列工作:
- 讀取儲存在 Cloud Storage 中的資料。
- 讀取 Google 的 1,000 種基因體專案鏡像等公開來源的資料。
htsget 通訊協定是由 Global Alliance for Genomics and Health (GA4GH) 定義。
Google 對 htsget 的實作可讓您存取及共用儲存在自己雲端專案中的資料,而不需要與 Compute Engine 虛擬機器之間來回複製大型檔案。
讀取公開資料
如要啟動 htsget 伺服器,請執行下列指令:
docker network create test
docker run -d --network=test --name=htsget gcr.io/cloud-lifesciences/htsget
執行這項指令會將伺服器連結至名為「test」的本機 Docker 容器網路。伺服器啟動後,您可以使用任何採用 GA4GH htsget 通訊協定的軟體存取該伺服器。
執行下列指令,查看公開基因組染色體 11 小範圍的統計資料:
docker run \
--network=test gcr.io/cloud-lifesciences/samtools \
flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"
幾秒後,這個指令會處理約 1, 500 次讀取,這些讀取資料是從儲存在 Cloud Storage 中的 BAM 檔案串流傳送:
1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)
如需有關 htsget 伺服器的詳細資訊,包括存取私人資料及限制資料存取權的相關資訊,請參閱 htsget README。