Utilizza dsub scrivere script ed eseguire attività di calcolo batch dei flussi di lavoro su Google Cloud.
Obiettivi
Dopo aver completato questo tutorial, saprai come eseguire una pipeline dsub su Google Cloud che crea un indice (file BAI) da un un grande file binario di sequenze del DNA (file BAM).
Costi
In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:
- Compute Engine
- Cloud Storage
Per generare una stima dei costi basata sull'utilizzo previsto,
utilizza il Calcolatore prezzi.
Prima di iniziare
- Installa Python 3.6 o versioni successive. Per ulteriori informazioni sulla configurazione dell'ambiente di sviluppo Python, come l'installazione di pip sul tuo sistema, consulta la Guida alla configurazione dell'ambiente di sviluppo Python.
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API Cloud Life Sciences, Compute Engine, and Cloud Storage.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API Cloud Life Sciences, Compute Engine, and Cloud Storage.
Crea un file BAI
Completa i seguenti passaggi per creare un indice (file BAI) da un grande file binario di sequenze del DNA (file BAM). I dati provengono 1000 Genomes Project.
Clona il repository GitHub databiosphere/dsub:
git clone https://github.com/databiosphere/dsub.git
Passa alla directory dello strumento dsub. Il repository contiene un Docker predefinito che usa samtools per eseguire l'indicizzazione.
cd dsub
Installa dsub e le sue dipendenze:
sudo python3 setup.py install
Esegui lo strumento dsub per creare il file BAI, sostituendo PROJECT_ID con il tuo progetto Google Cloud e BUCKET con un bucket Cloud Storage a cui dispongono dell'accesso in scrittura:
dsub \ --provider google-cls-v2 \ --project PROJECT_ID \ --logging gs://BUCKET/logs \ --input BAM=gs://genomics-public-data/1000-genomes/bam/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam \ --output BAI=gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai \ --image quay.io/cancercollaboratory/dockstore-tool-samtools-index \ --command 'samtools index ${BAM} ${BAI}' \ --wait
Il comando samtools viene eseguito sul file di dati fornito il flag
--input
. La pipeline scrive il file di output e i log nel bucket Cloud Storage.Verifica che il file BAI sia stato generato:
gcloud storage ls gs://BUCKET
Il comando restituisce la seguente risposta:
gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai
Esegui la pulizia
Al termine del tutorial, puoi eseguire la pulizia delle risorse che hai creato in modo che smettono di usare la quota e comportano addebiti. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione creato per il tutorial.
Per eliminare il progetto:
- Nella console Google Cloud, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.
Passaggi successivi
Leggi la documentazione relativa a dsub su GitHub per maggiori dettagli ed esempi su come sviluppare con dsub localmente o utilizzare dsub per fare lo scale up a molte attività su Google Cloud.