Esegui dsub

Utilizza dsub per scrivere script ed eseguire attività di computing batch e flussi di lavoro su Google Cloud.

Obiettivi

Dopo aver completato questo tutorial, saprai come eseguire una pipeline dsub su Google Cloud che crea un indice (file BAI) da un grande file binario di sequenze del DNA (file BAM).

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

  • Compute Engine
  • Cloud Storage

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud possono essere idonei a una prova senza costi aggiuntivi.

Prima di iniziare

  1. Installa Python 3.6 o versioni successive. Per ulteriori informazioni sulla configurazione dell'ambiente di sviluppo Python, ad esempio l'installazione di pip sul tuo sistema, consulta la Guida alla configurazione dell'ambiente di sviluppo di Python.
  2. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  3. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  4. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  5. Abilita le API Cloud Life Sciences, Compute Engine, and Cloud Storage.

    Abilita le API

  6. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  7. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  8. Abilita le API Cloud Life Sciences, Compute Engine, and Cloud Storage.

    Abilita le API

Crea un file BAI

Completa i passaggi seguenti per creare un indice (file BAI) da un grande file binario di sequenze del DNA (file BAM). I dati provengono dal progetto 1000 genomi.

  1. Clona il repository GitHub databiosphere/dsub:

    git clone https://github.com/databiosphere/dsub.git
    
  2. Passa alla directory dello strumento dsub. Il repository contiene un'immagine Docker predefinita che utilizza samtools per eseguire l'indicizzazione.

    cd dsub
    
  3. Installa dsub e le sue dipendenze:

    sudo python3 setup.py install
    
  4. Esegui lo strumento dsub per creare il file BAI, sostituendo PROJECT_ID con il progetto Google Cloud e BUCKET con un bucket Cloud Storage a cui hai accesso in scrittura:

    dsub \
        --provider google-cls-v2 \
        --project PROJECT_ID \
        --logging gs://BUCKET/logs \
        --input BAM=gs://genomics-public-data/1000-genomes/bam/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam \
        --output BAI=gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai \
        --image quay.io/cancercollaboratory/dockstore-tool-samtools-index \
        --command 'samtools index ${BAM} ${BAI}' \
        --wait
    

    Il comando samtools viene eseguito sul file di dati fornito con il flag --input. La pipeline scrive il file di output e registra il bucket Cloud Storage.

  5. Verifica che il file BAI sia stato generato:

    gsutil ls gs://BUCKET
    

    Il comando restituisce la seguente risposta:

    gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai
    

Esegui la pulizia

Al termine del tutorial, puoi eseguire la pulizia delle risorse che hai creato in modo che smettano di utilizzare la quota e vengano addebitati costi. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi

Leggi la documentazione relativa a dsub su GitHub per maggiori dettagli ed esempi di come sviluppare localmente con dsub o utilizzare dsub per eseguire lo scale up di molte attività su Google Cloud.