Démarrage rapide

Cette page explique comment exécuter un pipeline génomique qui utilise l'API Cloud Life Sciences pour créer un fichier d'index (fichier BAI) à partir d'un fichier binaire volumineux contenant des séquences d'ADN (fichier BAM).

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.

  4. Activer les API Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

    Activer les API

  5. Installez et initialisez le SDK Cloud.
  6. Vous pouvez également utiliser Cloud Shell, sur lequel le SDK Cloud est préinstallé.

Exécuter le pipeline

Vous pouvez exécuter le pipeline à l'aide de curl ou de Windows PowerShell.

curl

  1. Créez une variable d'environnement BUCKET. La variable pointe vers un bucket Cloud Storage qui utilise le nom de votre projet suivi de -life-sciences.

    export BUCKET=gs://PROJECT_ID-life-sciences
    
  2. Créez le bucket à l'aide de la commande gsutil mb :

    gsutil mb ${BUCKET}
    
  3. Exécutez un pipeline à l'aide de l'outil de ligne de commande gcloud, en spécifiant un nom de fichier BAM en tant qu'entrée et un nom de fichier BAI en tant que sortie. Le pipeline appelle l'API Cloud Life Sciences, crée une instance de VM Compute Engine, puis exécute le traitement du pipeline sur l'instance. Une fois le traitement terminé, l'instance est automatiquement fermée et le fichier BAI est copié dans votre bucket Cloud Storage.

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=${BUCKET}/NA12878.chr20.sample.bam.bai
    

    Si l'opération réussit, la commande renvoie les éléments suivants :

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    
  4. Le déploiement prend quelques minutes. Vous pouvez exécuter la commande suivante pour suivre son statut. Remplacez OPERATION_ID par la valeur affichée à l'étape précédente.

    gcloud beta lifesciences operations wait OPERATION_ID
    

    Une fois l'opération terminée, elle renvoie le message suivant :

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  5. Vérifiez que le fichier BAI a été généré :

    gsutil ls ${BUCKET}
    

    La commande devrait renvoyer les éléments suivants :

    gs://BUCKET/NA12878.chr20.sample.bam.bai
    

Vous venez d'exécuter un pipeline utilisant l'API Cloud Life Sciences pour créer un fichier BAI à partir d'un fichier BAM.

PowerShell

  1. Créez une variable d'environnement BUCKET. La variable pointe vers un bucket Cloud Storage qui utilise le nom de votre projet suivi de -life-sciences.

    $BUCKET = "gs://PROJECT_ID-life-sciences"
    
  2. Créez le bucket à l'aide de la commande gsutil mb :

    gsutil mb ${BUCKET}
    
  3. Exécutez un pipeline à l'aide de l'outil de ligne de commande gcloud, en spécifiant un nom de fichier BAM en tant qu'entrée et un nom de fichier BAI en tant que sortie. Le pipeline appelle l'API Cloud Life Sciences, crée une instance de VM Compute Engine, puis exécute le traitement du pipeline sur l'instance. Une fois le traitement terminé, l'instance est automatiquement fermée et le fichier BAI est copié dans votre bucket Cloud Storage.

    gcloud beta lifesciences pipelines run `
        --regions us-east1 `
        --command-line 'samtools index ${BAM} ${BAI}' `
        --docker-image "gcr.io/cloud-lifesciences/samtools" `
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam `
        --outputs BAI=${BUCKET}/NA12878.chr20.sample.bam.bai
    

    Si l'opération réussit, la commande renvoie les éléments suivants :

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    
  4. Le déploiement prend quelques minutes. Vous pouvez exécuter la commande suivante pour suivre son statut. Remplacez OPERATION_ID par la valeur affichée à l'étape précédente.

    gcloud beta lifesciences operations wait OPERATION_ID
    

    Une fois l'opération terminée, elle renvoie le message suivant :

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  5. Vérifiez que le fichier BAI a été généré :

    gsutil ls ${BUCKET}
    

    La commande devrait renvoyer les éléments suivants :

    gs://BUCKET/NA12878.chr20.sample.bam.bai
    

Vous venez d'exécuter un pipeline utilisant l'API Cloud Life Sciences pour créer un fichier BAI à partir d'un fichier BAM.

Nettoyer

Pour éviter que les ressources utilisées dans ce tutoriel soient facturées sur votre compte Google Cloud, vous pouvez nettoyer les ressources créées sur Google Cloud. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.

Supprimer le projet

Si vous avez créé le projet spécifiquement pour ce guide de démarrage rapide et que vous n'en avez plus besoin, vous pouvez le supprimer. La suppression du projet entraîne également la suppression du bucket Cloud Storage et du fichier BAI.

  1. Dans Cloud Console, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Supprimer le fichier BAI

Pour supprimer le fichier BAI généré tout en conservant le projet et le bucket que vous avez créés, exécutez la commande gsutil rm :

gsutil rm ${BUCKET}/NA12878.chr20.sample.bam.bai

Supprimer le bucket

Si vous avez créé le bucket spécifiquement pour ce démarrage rapide et que vous n'en avez plus besoin, mais que vous souhaitez conserver votre projet, supprimez le bucket à l'aide de la commande gsutil rb. La suppression du bucket supprime également le fichier BAI généré.

gsutil rb ${BUCKET}

Étapes suivantes