Lettura dei dati con il protocollo htsget

Questa pagina descrive come utilizzare l'implementazione di Google del protocollo htsget per eseguire le seguenti attività:

  • Leggi i dati archiviati in Cloud Storage.
  • Legge i dati da fonti pubbliche come lo specchietto di Google del progetto 1000 Genomes.

Il protocollo htsget è definito dalla Global Alliance for Genomics and Health (GA4GH).

L'implementazione htsget di Google ti consente di accedere ai dati archiviati in per i tuoi progetti cloud senza copiare file di grandi dimensioni di macchine virtuali Compute Engine.

Leggere i dati pubblici

Per avviare il server htsget, esegui questi comandi:

docker network create test
docker run -d --network=test --name=htsget gcr.io/cloud-lifesciences/htsget

L'esecuzione del comando collega il server a un Docker locale una rete di container denominata "test". Una volta avviato il server, puoi accedervi utilizzando qualsiasi software che comunica tramite GA4GH htsget.

Esegui questo comando per visualizzare le statistiche relative a un piccolo intervallo del cromosoma 11 su un genoma pubblico:

docker run \
    --network=test gcr.io/cloud-lifesciences/samtools \
    flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"

Dopo alcuni secondi, il comando elabora circa 1500 letture in streaming da un file BAM archiviato in Cloud Storage:

1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)

Per ulteriori informazioni sul server htsget, tra cui informazioni sull'accesso ai dati privati e sulla limitazione dell'accesso ai tuoi dati, consulta il file README di htsget.