Questa pagina descrive come utilizzare l'implementazione di Google del protocollo htsget per eseguire le seguenti attività:
- Leggi i dati archiviati in Cloud Storage.
- Leggi i dati da fonti pubbliche come la copia di Google del 1000 Genomes Project.
Il protocollo htsget è definito dalla Global Alliance for Genomics and Health (GA4GH).
L'implementazione di htsget di Google ti consente di accedere e condividere i dati archiviati nei tuoi progetti cloud senza copiare file di grandi dimensioni da e verso le macchine virtuali Compute Engine.
Leggere i dati pubblici
Per avviare il server htsget, esegui i seguenti comandi:
docker network create test
docker run -d --network=test --name=htsget gcr.io/cloud-lifesciences/htsget
L'esecuzione del comando collega il server a una rete di contenitori Docker locale denominata "test". Dopo l'avvio del server, puoi accedervi utilizzando qualsiasi software che comunichi utilizzando il protocollo htsget di GA4GH.
Esegui il seguente comando per visualizzare le statistiche relative a un piccolo intervallo del cromosoma 11 su un genoma pubblico:
docker run \
--network=test gcr.io/cloud-lifesciences/samtools \
flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"
Dopo alcuni secondi, il comando elabora circa 1500 letture in streaming da un file BAM archiviato in Cloud Storage:
1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)
Per ulteriori informazioni sul server htsget, tra cui informazioni sull'accesso ai dati privati e sulla limitazione dell'accesso ai tuoi dati, consulta il file README di htsget.