Cette page a été traduite par l'API Cloud Translation.
Switch to English

Lire des données

Pour accéder aux données génomiques stockées dans Cloud Storage, vous pouvez utiliser la version mise en œuvre par Google du protocole htsget, qui est développé par Global Alliance for Genomics and Health.

Notre mise en œuvre du protocole htsget vous permet d'accéder aux données stockées dans vos projets cloud et de les partager, sans avoir à copier des fichiers volumineux vers et depuis des machines virtuelles Compute Engine.

Vous pouvez également passer par le serveur htsget pour accéder aux données de sources accessibles publiquement, telles que les données du projet 1000 Genomes (1 000 génomes) hébergées en miroir par Google.

Pour essayer ce service avec certaines données publiques, exécutez les commandes suivantes dans Cloud Shell :

docker network create test
docker run -d --network=test --name=htsget gcr.io/genomics-tools/htsget

Ces commandes vous permettent d'exécuter le serveur htsget et de l'associer à un réseau de conteneurs Docker local nommé "test". Une fois le serveur exécuté, vous pouvez y accéder à l'aide de n'importe quel logiciel compatible avec le protocole htsget de GA4GH.

À titre d'exemple, la commande suivante exécute l'outil samtools pour consulter les statistiques relatives à un petit fragment du chromosome 11 d'un génome accessible publiquement :

docker run --network=test gcr.io/genomics-tools/samtools flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"

Vous constaterez que samtools a pu traiter, en quelques secondes à peine, plus de 1 500 lectures diffusées à partir du fichier BAM stocké dans Cloud Storage :

1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)

Pour en savoir plus sur le serveur htsget, y compris sur la manière d'accéder à des données privées ou de limiter l'accès à vos données, consultez ce fichier README.