Cette page a été traduite par l'API Cloud Translation.

Exécuter dsub

Utilisez dsub pour écrire des scripts, puis exécutez des tâches de calcul par lots et des workflows sur Google Cloud.

Objectifs

À la fin de ce tutoriel, vous saurez comment exécuter sur Google Cloud un pipeline dsub créant un index (fichier BAI) à partir d'un fichier binaire volumineux comportant des séquences ADN (fichier BAM).

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

Compute Engine
Cloud Storage

Pour obtenir une estimation des coûts en fonction de votre utilisation prévue, utilisez le simulateur de coût.

Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

Installez Python 3.6 ou une version ultérieure. Pour savoir comment configurer votre environnement de développement Python et installer pip sur votre système, consultez le guide de configuration d'un environnement de développement Python.
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Make sure that billing is enabled for your Google Cloud project.
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage APIs.
Enable the APIs

Créer un fichier BAI

Procédez comme suit pour créer un index (fichier BAI) à partir d'un fichier binaire volumineux comportant des séquences ADN (fichier BAM). Les données proviennent du Projet 1000 Genomes.

Clonez le dépôt GitHub databiosphere/dsub :

git clone https://github.com/databiosphere/dsub.git

Accédez au répertoire de l'outil dsub. Le dépôt contient une image Docker prédéfinie qui effectue l'opération d'indexation à l'aide de samtools.
```
cd dsub
```
Installez dsub et ses dépendances :
```
sudo python3 setup.py install
```

Exécutez l'outil dsub pour créer le fichier BAI, en remplaçant PROJECT_ID par votre projet Google Cloud et BUCKET par un bucket Cloud Storage auquel vous avez accès en écriture :

dsub \
    --provider google-cls-v2 \
    --project PROJECT_ID \
    --logging gs://BUCKET/logs \
    --input BAM=gs://genomics-public-data/1000-genomes/bam/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam \
    --output BAI=gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai \
    --image quay.io/cancercollaboratory/dockstore-tool-samtools-index \
    --command 'samtools index ${BAM} ${BAI}' \
    --wait

La commande samtools s'exécute sur le fichier de données fourni avec l'option --input. Le pipeline écrit le fichier de sortie et les journaux dans votre bucket Cloud Storage.

Vérifiez que le fichier BAI a été généré :

gcloud storage ls gs://BUCKET

La commande renvoie la réponse suivante :

gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai

Effectuer un nettoyage

Une fois le tutoriel terminé, vous pouvez procéder au nettoyage des ressources que vous avez créées afin qu'elles ne soient plus comptabilisées dans votre quota et qu'elles ne vous soient plus facturées. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

Attention : La suppression d'un projet aura les effets suivants :

Tout le contenu du projet est supprimé. Si vous avez utilisé un projet existant pour les tâches décrites dans ce document et que vous le supprimez, vous supprimerez également tout autre travail effectué dans le projet.
Les ID de projets personnalisés sont perdus. Lorsque vous avez créé ce projet, vous avez peut-être créé un ID de projet personnalisé que vous souhaitez utiliser à l'avenir. Pour conserver les URL qui utilisent l'ID de projet, telle qu'une URL appspot.com, supprimez les ressources sélectionnées dans le projet au lieu de supprimer l'ensemble du projet.

Si vous envisagez d'explorer plusieurs architectures, tutoriels et guides de démarrage rapide, réutiliser des projets peut vous aider à ne pas dépasser les limites de quotas des projets.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Étapes suivantes

Lisez la documentation de dsub sur GitHub pour en savoir plus et pour découvrir des exemples de développement local avec dsub, ou utilisez dsub pour effectuer un maximum de tâches sur Google Cloud.