En esta página, se describe cómo usar la implementación de Google del protocolo htsget para realizar las siguientes tareas:
- LeeR los datos almacenados en Cloud Storage.
- LeeR datos de fuentes públicas, como la duplicación de Google del 1000 Genomes Project.
El protocolo htsget es definido por la Global Alliance for Genomics and Health (GA4GH).
La forma en que Google implementa htsget te permite acceder a los datos almacenados en tus propios proyectos en la nube y compartirlos sin copiar archivos grandes desde y hacia las máquinas virtuales de Compute Engine.
Lee datos públicos
Para iniciar el servidor de htsget, ejecuta los siguientes comandos:
docker network create test
docker run -d --network=test --name=htsget gcr.io/cloud-lifesciences/htsget
La ejecución del comando conecta el servidor a un Docker local red de contenedores llamada “test”. Después de que se inicie el servidor, puedes acceder a él con cualquier software que se comunique con el protocolo htsget de GA4GH.
Ejecuta el siguiente comando para ver las estadísticas de un intervalo pequeño del cromosoma 11 en un genoma público:
docker run \
--network=test gcr.io/cloud-lifesciences/samtools \
flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"
Después de unos segundos, el comando procesa alrededor de 1,500 lecturas transmitidas desde un archivo BAM almacenado en Cloud Storage:
1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)
Para obtener más información acerca del servidor de htsget, incluido cómo acceder a datos privados y cómo limitar el acceso a tus datos, consulta el archivo htsget README.