Démarrage rapide

Cette page vous indique comment exécuter un pipeline utilisant l'API Cloud Genomics Pipelines pour créer un fichier d'index (fichier BAI) à partir d'un fichier binaire volumineux comportant des séquences ADN (fichier BAM).

Avant de commencer

  1. Connectez-vous à votre compte Google.

    Si vous n'en possédez pas déjà un, vous devez en créer un.

  2. Dans la console GCP, accédez à la page Gérer les ressources et sélectionnez ou créez un projet.

    Accéder à la page "Gérer les ressources"

  3. Assurez-vous que la facturation est activée pour votre projet Google Cloud Platform.

    Découvrir comment activer la facturation

  4. Activez Cloud Genomics, Compute Engine, and Cloud Storage JSONles API requises.

    Activer les API.

  5. Installez et initialisez le SDK Cloud.
  6. Vous pouvez également utiliser Google Cloud Shell, déjà installé avec le SDK Cloud.

Exécuter le pipeline

  1. Créez une variable d'environnement BUCKET. La variable renvoie vers un ensemble Cloud Storage qui utilise votre nom de projet avec le suffixe -genomics.

    export BUCKET=gs://PROJECT_ID-genomics
    
  2. Créez le bucket à l'aide de la commande gsutil mb :

    gsutil mb ${BUCKET}
    
  3. Exécutez un pipeline à l'aide de l'outil de ligne de commande gcloud, avec le fichier BAM comme entrée et un fichier BAI comme sortie. Le pipeline appelle l'API Pipelines, crée une instance de VM Compute Engine, puis exécute le traitement du pipeline sur l'instance. Une fois le traitement terminé, l'instance est automatiquement fermée et le fichier BAI est copié dans votre bucket Cloud Storage.

    gcloud alpha genomics pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/genomics-tools/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=${BUCKET}/NA12878.chr20.sample.bam.bai
    

    Si l'opération réussit, la commande renvoie les éléments suivants :

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    
  4. Le pipeline aura besoin de quelques minutes pour se terminer. Exécutez la boucle bash suivante pour vérifier toutes les 30 secondes si le pipeline est terminé. Remplacez OPERATION_ID par la valeur affichée à l'étape précédente.

    while [[ $(gcloud --format='value(done)' alpha genomics operations describe OPERATION_ID) != True ]]; do
        echo "Pipeline not finished, sleeping for 30 seconds..."
        sleep 30
    done
    

    Une fois que la boucle cesse d’afficher des résultats Pipeline not finished, sleeping for 30 seconds..., exécutez la commande suivante pour vérifier que le pipeline est terminé. Lorsque le pipeline est en cours d'exécution, la commande affiche False. Une fois le pipeline terminé, elle affiche True.

    gcloud --format="value(done)" alpha genomics operations describe OPERATION_ID
    
  5. Vérifiez que le fichier BAI a été généré :

    gsutil ls ${BUCKET}
    

    La commande devrait renvoyer les éléments suivants :

    gs://BUCKET/NA12878.chr20.sample.bam.bai
    

Vous venez d'exécuter un pipeline utilisant l'API Pipelines pour créer un fichier BAI à partir d'un fichier BAM.

Effectuer un nettoyage

  1. Utilisez la commande gsutil rm pour supprimer le fichier BAI :

    gsutil rm ${BUCKET}/NA12878.chr20.sample.bam.bai
    
  2. Si vous avez créé le bucket spécifiquement pour ce guide de démarrage rapide et que vous n'en avez plus besoin, supprimez-le à l'aide de la commande gsutil rb :

    gsutil rb ${BUCKET}
    

Étapes suivantes

Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…