Lettura dei dati con il protocollo htsget

In questa pagina viene spiegato come utilizzare l'implementazione di Google del protocollo Htsget per eseguire le seguenti attività:

  • Leggere i dati archiviati in Cloud Storage.
  • Leggere dati da fonti pubbliche come lo specchio di Google del Progetto 1000 genomi.

Il protocollo htsget è definito dalla Global Alliance for Genomics and Health (GA4GH).

L'implementazione HTSget di Google ti consente di accedere e condividere i dati archiviati nei tuoi progetti cloud senza copiare file di grandi dimensioni da e verso le macchine virtuali di Compute Engine.

Lettura di dati pubblici

Per avviare il server htsget, esegui i comandi seguenti:

docker network create test
docker run -d --network=test --name=htsget gcr.io/cloud-lifesciences/htsget

L'esecuzione del comando collega il server a una rete di container Docker locale denominata "test". Dopo l'avvio del server, puoi accedervi utilizzando qualsiasi software che comunica con il protocollo HTSget GA4GH.

Esegui il seguente comando per visualizzare le statistiche relative a un piccolo intervallo sul cromosoma 11 su un genoma pubblico:

docker run \
    --network=test gcr.io/cloud-lifesciences/samtools \
    flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"

Dopo alcuni secondi, il comando elabora circa 1500 letture che sono state trasmesse in streaming da un file BAM archiviato in Cloud Storage:

1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)

Per ulteriori informazioni sul server htsget, incluse informazioni sull'accesso ai dati privati e sulla limitazione dell'accesso ai tuoi dati, vedi README di htsget.