Démarrage rapide

Cette page explique comment exécuter un pipeline génomique utilisant l'API Cloud Life Sciences pour créer un fichier d'index (fichier BAI) à partir d'un fichier binaire contenant des séquences d'ADN (fichier BAM). Les fichiers BAM sont généralement volumineux et leur lecture à l'aide d'un lecteur de génome peut prendre beaucoup de temps. Vous utilisez un fichier BAI pour localiser les parties du fichier BAM contenant la position génomique qui vous intéresse.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.

  4. Activer les API Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

    Activer les API

  5. Installez et initialisez le SDK Cloud.
  6. Vous pouvez également utiliser Cloud Shell, sur lequel le SDK Cloud est préinstallé.

  7. Installez Python 3.8.

    Si vous utilisez Windows et que vous avez laissé la case correspondante cochée lors de l'installation du SDK Cloud, cette opération a été effectuée automatiquement.

Exécuter le pipeline

Pour exécuter le pipeline, procédez comme suit:

  1. Créez un bucket dans lequel vous allez stocker le fichier BAI. Les buckets sont les conteneurs de base dans lesquels sont stockées vos données dans Cloud Storage. Pour créer un bucket nommé PROJECT_ID-life-sciences, exécutez la commande gsutil mb:

    gsutil mb gs://PROJECT_ID-life-sciences
    

    Remplacez PROJECT_ID par l'ID de votre projet Google Cloud. Vous devez utiliser un nom de bucket unique.

    Si l'opération réussit, la commande renvoie les éléments suivants :

    Creating gs://PROJECT_ID-life-sciences
    
  2. Pour démarrer le pipeline, exécutez la commande gcloud beta lifesciences pipelines run:

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

    Si l'opération réussit, la commande renvoie les éléments suivants :

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    

    Notez l'élément OPERATION_ID que vous utiliserez à l'étape suivante.

  3. Pour suivre l'état du pipeline, exécutez la commande gcloud beta lifesciences operations wait. Remplacez OPERATION_ID par la valeur affichée à l'étape précédente. Le déploiement prend quelques minutes.

    gcloud beta lifesciences operations wait OPERATION_ID
    

    Une fois l'opération terminée, elle renvoie le message suivant :

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  4. Pour vérifier que le fichier BAI a été généré, exécutez la commande gsutil ls:

    gsutil ls gs://PROJECT_ID-life-sciences
    

    Si l'opération réussit, la commande renvoie les éléments suivants :

    gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

Vous avez exécuté un pipeline à l'aide de l'API Cloud Life Sciences pour créer un fichier BAI à partir d'un fichier BAM. Utilisez un lecteur de génome pour examiner le fichier BAM NA12878.chr20.sample.bam à l'aide du fichier d'index NA12878.chr20.sample.bam.bai.

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud :

Supprimer le fichier BAI

Pour supprimer le fichier BAI généré tout en conservant le projet et le bucket que vous avez créés, exécutez la commande gsutil rm:

gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Supprimer le bucket

Si vous avez créé le bucket spécifiquement pour ce guide de démarrage rapide et que vous n'en avez plus besoin, mais que vous souhaitez conserver votre projet, supprimez le bucket à l'aide de la commande gsutil rb. La suppression du bucket supprime également le fichier BAI généré.

gsutil rb gs://PROJECT_ID-life-sciences

Supprimer le projet

Si vous avez créé le projet spécifiquement pour ce démarrage rapide et que vous n'en avez plus besoin, vous pouvez le supprimer. La suppression du projet entraîne également la suppression du fichier BAI et du bucket Cloud Storage.

  1. Dans Cloud Console, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Comment ça s'est passé ?

Étape suivante