Cette page explique comment exécuter un pipeline génomique qui utilise l'API Cloud Life Sciences pour créer un fichier d'index (fichier BAI) à partir d'un fichier binaire volumineux contenant des séquences d'ADN (fichier BAM).
Avant de commencer
- Connectez-vous à votre compte Google.
Si vous n'en possédez pas déjà un, vous devez en créer un.
-
Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.
-
Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.
- Activer les API Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.
- Installez et initialisez le SDK Cloud.
Vous pouvez également utiliser Cloud Shell, sur lequel le SDK Cloud est préinstallé.
Exécuter le pipeline
Vous pouvez exécuter le pipeline à l'aide de curl
ou de Windows PowerShell.
curl
Créez une variable d'environnement
BUCKET
. La variable pointe vers un bucket Cloud Storage qui utilise le nom de votre projet suivi de-life-sciences
.export BUCKET=gs://PROJECT_ID-life-sciences
Créez le bucket à l'aide de la commande
gsutil mb
:gsutil mb ${BUCKET}
Exécutez un pipeline à l'aide de l'outil de ligne de commande
gcloud
, en spécifiant un nom de fichier BAM en tant qu'entrée et un nom de fichier BAI en tant que sortie. Le pipeline appelle l'API Cloud Life Sciences, crée une instance de VM Compute Engine, puis exécute le traitement du pipeline sur l'instance. Une fois le traitement terminé, l'instance est automatiquement fermée et le fichier BAI est copié dans votre bucket Cloud Storage.gcloud beta lifesciences pipelines run \ --regions us-east1 \ --command-line 'samtools index ${BAM} ${BAI}' \ --docker-image "gcr.io/genomics-tools/samtools" \ --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \ --outputs BAI=${BUCKET}/NA12878.chr20.sample.bam.bai
Si l'opération réussit, la commande renvoie les éléments suivants :
Running [projects/PROJECT_ID/operations/OPERATION_ID]
Le déploiement prend quelques minutes. Vous pouvez exécuter la commande suivante pour suivre son statut. Remplacez OPERATION_ID par la valeur affichée à l'étape précédente.
gcloud beta lifesciences operations wait OPERATION_ID
Une fois l'opération terminée, elle renvoie le message suivant :
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
Vérifiez que le fichier BAI a été généré :
gsutil ls ${BUCKET}
La commande devrait renvoyer les éléments suivants :
gs://BUCKET/NA12878.chr20.sample.bam.bai
Vous venez d'exécuter un pipeline utilisant l'API Cloud Life Sciences pour créer un fichier BAI à partir d'un fichier BAM.
PowerShell
Créez une variable d'environnement
BUCKET
. La variable pointe vers un bucket Cloud Storage qui utilise le nom de votre projet suivi de-life-sciences
.$BUCKET = "gs://PROJECT_ID-life-sciences"
Créez le bucket à l'aide de la commande
gsutil mb
:gsutil mb ${BUCKET}
Exécutez un pipeline à l'aide de l'outil de ligne de commande
gcloud
, en spécifiant un nom de fichier BAM en tant qu'entrée et un nom de fichier BAI en tant que sortie. Le pipeline appelle l'API Cloud Life Sciences, crée une instance de VM Compute Engine, puis exécute le traitement du pipeline sur l'instance. Une fois le traitement terminé, l'instance est automatiquement fermée et le fichier BAI est copié dans votre bucket Cloud Storage.gcloud beta lifesciences pipelines run ` --regions us-east1 ` --command-line 'samtools index ${BAM} ${BAI}' ` --docker-image "gcr.io/genomics-tools/samtools" ` --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam ` --outputs BAI=${BUCKET}/NA12878.chr20.sample.bam.bai
Si l'opération réussit, la commande renvoie les éléments suivants :
Running [projects/PROJECT_ID/operations/OPERATION_ID]
Le déploiement prend quelques minutes. Vous pouvez exécuter la commande suivante pour suivre son statut. Remplacez OPERATION_ID par la valeur affichée à l'étape précédente.
gcloud beta lifesciences operations wait OPERATION_ID
Une fois l'opération terminée, elle renvoie le message suivant :
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
Vérifiez que le fichier BAI a été généré :
gsutil ls ${BUCKET}
La commande devrait renvoyer les éléments suivants :
gs://BUCKET/NA12878.chr20.sample.bam.bai
Vous venez d'exécuter un pipeline utilisant l'API Cloud Life Sciences pour créer un fichier BAI à partir d'un fichier BAM.
Nettoyer
Pour éviter que les ressources utilisées dans ce tutoriel soient facturées sur votre compte Google Cloud, vous pouvez nettoyer les ressources créées sur Google Cloud. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.
Supprimer le projet
Si vous avez créé le projet spécifiquement pour ce guide de démarrage rapide et que vous n'en avez plus besoin, vous pouvez le supprimer. La suppression du projet entraîne également la suppression du bucket Cloud Storage et du fichier BAI.
- Dans Cloud Console, accédez à la page Gérer les ressources.
- Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
- Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.
Supprimer le fichier BAI
Pour supprimer le fichier BAI généré tout en conservant le projet et le bucket que vous avez créés, exécutez la commande gsutil rm
:
gsutil rm ${BUCKET}/NA12878.chr20.sample.bam.bai
Supprimer le bucket
Si vous avez créé le bucket spécifiquement pour ce démarrage rapide et que vous n'en avez plus besoin, mais que vous souhaitez conserver votre projet, supprimez le bucket à l'aide de la commande gsutil rb
. La suppression du bucket supprime également le fichier BAI généré.
gsutil rb ${BUCKET}
Étapes suivantes
- Rechercher des ensembles de données publiques relatives au génome
- Chargez des données relatives aux variantes dans Cloud Storage ou BigQuery.
- Analysez des variantes avec BigQuery.