Lire des données à l'aide de htsget

Cette page explique comment effectuer les tâches suivantes à l'aide de la mise en œuvre Google du protocole htsget :

  • Lire des données stockées dans Cloud Storage
  • Lire des données issues de sources publiques telles que le miroir Google du Projet 1000 Genomes

Le protocole htsget est défini par la Global Alliance for Genomics and Health (GA4GH).

Notre mise en œuvre du protocole htsget vous permet d'accéder aux données stockées dans vos projets cloud et de les partager, sans avoir à copier des fichiers volumineux vers et depuis des machines virtuelles Compute Engine.

Lire des données publiques

Pour démarrer le serveur htsget, exécutez les commandes suivantes :

docker network create test
docker run -d --network=test --name=htsget gcr.io/cloud-lifesciences/htsget

L'exécution de la commande associe le serveur à un réseau de conteneurs Docker local nommé "test". Une fois le serveur démarré, vous pouvez y accéder à l'aide de n'importe quel logiciel qui communique à l'aide du protocole htsget de la GA4GH.

Exécutez la commande suivante pour afficher les statistiques pour une petite plage sur le chromosome 11 d'un génome accessible publiquement :

docker run \
    --network=test gcr.io/cloud-lifesciences/samtools \
    flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"

Après quelques secondes, la commande traite environ 1 500 lectures diffusées à partir d'un fichier BAM stocké dans Cloud Storage :

1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)

Pour en savoir plus sur le serveur htsget, y compris sur la manière d'accéder à des données privées ou de limiter l'accès à vos données, consultez ce fichier README.