Lee datos con htsget

En esta página, se describe cómo usar la implementación de Google del protocolo htsget para realizar las siguientes tareas:

  • Leer datos almacenados en Cloud Storage
  • Leer datos de fuentes públicas, como la duplicación de Google del Proyecto 1,000 genomas

El protocolo htsget se define mediante Global Alliance for Genomics and Health (GA4GH).

La forma en que Google implementa htsget te permite acceder a los datos almacenados en tus propios proyectos en la nube y compartirlos sin copiar archivos grandes desde y hacia las máquinas virtuales de Compute Engine.

Leer datos públicos

Para iniciar el servidor de htsget, ejecute los siguientes comandos:

docker network create test
docker run -d --network=test --name=htsget gcr.io/cloud-lifesciences/htsget

La ejecución del comando conecta el servidor a una red de contenedores de Docker local llamada “test”. Una vez que se inicie el servidor, puedes acceder a él con cualquier software que se comunique con el protocolo htsget de GA4GH.

Ejecute el siguiente comando para ver estadísticas sobre un rango pequeño en un cromosoma 11 en un genoma público:

docker run \
    --network=test gcr.io/cloud-lifesciences/samtools \
    flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"

Después de unos segundos, el comando procesa alrededor de 1,500 operaciones de lectura que se transmitieron desde un archivo BAM almacenado en Cloud Storage:

1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)

Para obtener más información acerca del servidor de htsget, incluido cómo acceder a datos privados y cómo limitar el acceso a tus datos, consulta el archivo htsget README.