Questa pagina è stata tradotta dall'API Cloud Translation.

Esegui dsub

Utilizza dsub per scrivere script ed eseguire attività di calcolo batch e flussi di lavoro su Google Cloud.

Obiettivi

Dopo aver completato questo tutorial, saprai come eseguire una pipeline dsub su Google Cloud che crea un indice (file BAI) da un grande file binario di sequenze del DNA (file BAM).

Costi

In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:

Compute Engine
Cloud Storage

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.

I nuovi utenti di Google Cloud potrebbero avere diritto a una prova gratuita.

Prima di iniziare

Installa Python 3.6 o versioni successive. Per ulteriori informazioni sulla configurazione dell'ambiente di sviluppo Python, ad esempio l'installazione di pip sul sistema, consulta la guida alla configurazione dell'ambiente di sviluppo Python.
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Make sure that billing is enabled for your Google Cloud project.
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage APIs.
Enable the APIs

Creare un file BAI

Completa i seguenti passaggi per creare un indice (file BAI) da un grande file binario di sequenze del DNA (file BAM). I dati provengono dal progetto 1000 Genomes.

Clona il repository GitHub databiosphere/dsub:

git clone https://github.com/databiosphere/dsub.git

Passa alla directory dello strumento dsub. Il repository contiene un'immagine Docker precompilata che utilizza samtools per eseguire l'indicizzazione.
```
cd dsub
```
Installa dsub e le relative dipendenze:
```
sudo python3 setup.py install
```

Esegui lo strumento dsub per creare il file BAI, sostituendo PROJECT_ID con il tuo progetto Google Cloud e BUCKET con un bucket Cloud Storage a cui hai accesso in scrittura:

dsub \
    --provider google-cls-v2 \
    --project PROJECT_ID \
    --logging gs://BUCKET/logs \
    --input BAM=gs://genomics-public-data/1000-genomes/bam/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam \
    --output BAI=gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai \
    --image quay.io/cancercollaboratory/dockstore-tool-samtools-index \
    --command 'samtools index ${BAM} ${BAI}' \
    --wait

Il comando samtools viene eseguito sul file di dati fornito con il flag --input. La pipeline scrive il file di output e i log nel bucket Cloud Storage.

Verifica che il file BAI sia stato generato:

gcloud storage ls gs://BUCKET

Il comando restituisce la seguente risposta:

gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai

Esegui la pulizia

Al termine del tutorial, puoi eliminare le risorse che hai creato in modo che non utilizzino più la quota generando addebiti. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto creato per il tutorial.

Per eliminare il progetto:

Attenzione: l'eliminazione di un progetto ha i seguenti effetti:

L'intero contenuto del progetto viene eliminato. Se hai utilizzato un progetto esistente per le attività descritte in questo documento, quando lo elimini, elimini anche tutto il lavoro che hai svolto nel progetto.
Gli ID progetto personalizzati non sono più disponibili. Quando hai creato questo progetto, potresti aver creato un ID progetto personalizzato che vuoi utilizzare in futuro. Per conservare gli URL che utilizzano l'ID progetto, ad esempio un URL appspot.com, elimina le risorse selezionate all'interno del progetto anziché eliminare l'intero progetto.

Se intendi esplorare più architetture, tutorial o guide rapide, puoi riutilizzare i progetti ed evitare così di superare i limiti di quota.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Passaggi successivi

Consulta la documentazione di dsub su GitHub per maggiori dettagli ed esempi su come sviluppare con dsub in locale o utilizzare dsub per scalare a molte attività su Google Cloud.