Lee datos

Para acceder a los datos genómicos almacenados en Cloud Storage, puedes usar la implementación de Google del protocolo htsget definido por Global Alliance for Genomics and Health.

La forma en que Google implementa htsget te permite acceder a los datos almacenados en tus propios proyectos en la nube y compartirlos sin copiar archivos grandes desde y hacia las máquinas virtuales de Compute Engine.

También puedes usar el servidor de htsget para acceder a datos de fuentes públicas, como la duplicación de Google del Proyecto 1,000 Genomes.

Para probar algunos datos públicos, ejecuta los siguientes comandos en Cloud Shell:

docker network create test
docker run -d --network=test --name=htsget gcr.io/genomics-tools/htsget

Este comando inicia la ejecución del servidor de htsget y lo vincula a una red local de contenedores de Docker llamada “test”. Una vez que se haya iniciado el servidor, puedes acceder a él con un software que use el protocolo htsget de GA4GH.

Como ejemplo, el siguiente comando utiliza samtools para ver estadísticas de un intervalo pequeño del cromosoma 11 en un genoma público:

docker run --network=test gcr.io/genomics-tools/samtools flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"

En solo unos segundos, deberías ver que samtools procesó más de 1,500 lecturas transmitidas desde el archivo BAM almacenado en Cloud Storage:

1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)

Para obtener más información acerca del servidor de htsget, incluido cómo acceder a datos privados y cómo limitar el acceso a tus datos, consulta el archivo README de htsget.