Daten mit htsget lesen

Auf dieser Seite wird beschrieben, wie Sie mit der Google-Implementierung des htsget-Protokolls folgende Aufgaben ausführen:

  • In Cloud Storage gespeicherte Daten lesen
  • Daten aus öffentlichen Quellen lesen, wie Google's Spiegelserver des 1.000-Genome-Projekts.

Das htsget-Protokoll wird von der Global Alliance for Genomics and Health (GA4GH) definiert.

Mit der htsget-Implementierung von Google können Sie auf Daten in Ihren eigenen Cloud-Projekten zugreifen und diese freigeben, ohne große Dateien von und auf Compute Engine-VMs kopieren zu müssen.

Öffentliche Daten lesen

Führen Sie die folgenden Befehle aus, um den htsget-Server zu starten:

docker network create test
docker run -d --network=test --name=htsget gcr.io/cloud-lifesciences/htsget

Der Befehl hängt den Server an ein lokales Docker-Container-Netzwerk namens "test" an. Nach dem Start des Servers können Sie darauf mit jeder Software zugreifen, die über das GA4GH-Protokoll "htsget" kommuniziert.

Führen Sie den folgenden Befehl aus, um Statistiken über einen kleinen Bereich auf Chromosom 11 in einem öffentlichen Genom anzuzeigen:

docker run \
    --network=test gcr.io/cloud-lifesciences/samtools \
    flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"

Nach einigen Sekunden verarbeitet der Befehl etwa 1.500 Lesevorgänge, die aus einer in Cloud Storage gespeicherten BAM-Datei gestreamt wurden:

1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)

Weitere Informationen zum htsget-Server, einschließlich Informationen zum Zugriff auf private Daten und zur Einschränkung des Zugriffs auf Ihre Daten, finden Sie in der README-Datei zu htsget.