htsget을 사용하여 데이터 읽기

이 페이지에서는 htsget 프로토콜의 Google 구현을 사용하여 다음 태스크를 실행하는 방법을 설명합니다.

  • Cloud Storage에 저장된 데이터를 읽습니다.
  • Google의 1000 Genomes Project 미러와 같은 공개 소스에서 데이터를 읽습니다.

htsget 프로토콜은 세계 유전체학 보건연대(GA4GH)에 의해 정의됩니다.

Google htsget 구현을 사용하면 Compute Engine 가상 머신에서 큰 파일을 복사할 필요 없이 자신의 고유 클라우드 프로젝트에 저장된 데이터에 액세스하고 이를 공유할 수 있습니다.

공개 데이터 읽기

htsget 서버를 시작하려면 다음 명령어를 실행하세요.

docker network create test
docker run -d --network=test --name=htsget gcr.io/cloud-lifesciences/htsget

이 명령어를 실행하면 서버가 'test'라는 로컬 Docker 컨테이너 네트워크에 연결됩니다. 서버가 시작되면 GA4GH htsget 프로토콜을 사용하여 통신하는 모든 소프트웨어를 사용하여 액세스할 수 있습니다.

공개 게놈에서 11번 염색체의 작은 범위에 대한 통계를 확인하려면 다음 명령어를 실행합니다.

docker run \
    --network=test gcr.io/cloud-lifesciences/samtools \
    flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"

몇 초 후 해당 명령어는 Cloud Storage에 저장된 BAM 파일에서 스트리밍된 약 1,500개의 읽기를 처리합니다.

1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)

비공개 데이터 액세스 및 데이터 액세스 제한에 대한 정보를 포함하여 htsget 서버에 대한 자세한 내용은 htsget README를 참조하세요.