데이터 읽기

Cloud Storage에 저장된 게놈 데이터에 액세스하기 위해서는 세계 유전학 보건연대(Global Alliance for Genomics and Health)에서 정의된 htsget 프로토콜에 대한 Google 구현을 사용할 수 있습니다.

Google htsget 구현을 사용하면 Compute Engine 가상 머신에서 큰 파일을 복사할 필요 없이 자신의 고유 클라우드 프로젝트에 저장된 데이터에 액세스하고 이를 공유할 수 있습니다.

또한 htsget 서버를 사용하여 Google의 1000 Genomes Project 미러와 같은 공개 소스의 데이터에 액세스할 수 있습니다.

공개 데이터에 시험해 보려면 Cloud Shell에서 다음 명령어를 실행합니다.

docker network create test
docker run -d --network=test --name=htsget gcr.io/genomics-tools/htsget

이 명령어는 실행 중인 htsget 서버를 시작하고 'test'라는 로컬 Docker 컨테이너 네트워크에 이 서버를 연결합니다. 시작한 후에는 GA4GH htsget 프로토콜을 준수하는 모든 소프트웨어를 사용하여 액세스할 수 있습니다.

예를 들어 아래 명령어는 samtools를 사용하여 공개 게놈에서 염색체 11의 작은 범위에 대한 통계를 표시합니다.

docker run --network=test gcr.io/genomics-tools/samtools flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"

몇 초 내에, Cloud Storage에 저장된 BAM 파일에서 스트리밍된 1500개 이상의 읽기가 samtools로 처리된 것을 확인할 수 있습니다.

1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)

비공개 데이터 액세스 및 데이터 액세스 제한에 대한 정보를 포함하여 htsget 서버에 대한 자세한 내용은 htsget README를 참조하세요.