Guide de démarrage rapide: traiter des données génomiques à l'aide de Cloud Life Sciences

Traiter des données génomiques à l'aide de Cloud Life Sciences

Cette page explique comment exécuter un pipeline génomique qui utilise l'API Cloud Life Sciences pour créer un fichier d'index (fichier BAI) à partir d'un fichier binaire contenant des séquences d'ADN (fichier BAM).

Les fichiers BAM sont généralement volumineux et peuvent prendre beaucoup de temps à être lus à l'aide d'un lecteur de génome. Vous pouvez utiliser un fichier BAI pour localiser les parties du fichier BAM qui contiennent la position du génome qui vous intéresse.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  4. Activer les API Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

    Activer les API

  5. Installez Google Cloud CLI.
  6. Pour initialiser gcloudCLI, exécutez la commande suivante :

    gcloud init
  7. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  8. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  9. Activer les API Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

    Activer les API

  10. Installez Google Cloud CLI.
  11. Pour initialiser gcloudCLI, exécutez la commande suivante :

    gcloud init
  12. Vous pouvez également utiliser Cloud Shell, qui comprend gcloud CLI.

  13. Installez Python 3.8.

    Si vous utilisez Windows et que vous avez coché la case appropriée lors de l'installation de Google Cloud CLI, cette opération a été effectuée automatiquement.

Exécuter le pipeline

Pour exécuter le pipeline, procédez comme suit :

  1. Créez un bucket dans lequel vous allez stocker le fichier BAI. Les buckets sont les conteneurs de base dans lesquels sont stockées vos données dans Cloud Storage. Pour créer un bucket nommé PROJECT_ID-life-sciences, exécutez la commande gsutil mb :

    gsutil mb gs://PROJECT_ID-life-sciences
    

    Remplacez PROJECT_ID par l'ID de votre projet Google Cloud. Vous devez utiliser un nom de bucket unique.

    Si l'opération réussit, la commande renvoie les éléments suivants :

    Creating gs://PROJECT_ID-life-sciences
    
  2. Pour démarrer le pipeline, exécutez la commande gcloud beta lifesciences pipelines run :

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

    Si l'opération réussit, la commande renvoie les éléments suivants :

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    

    Notez la valeur de OPERATION_ID. Vous l'utiliserez à l'étape suivante.

  3. Pour suivre l'état du pipeline, exécutez la commande gcloud beta lifesciences operations wait. Remplacez OPERATION_ID par la valeur affichée à l'étape précédente. Le déploiement prend quelques minutes.

    gcloud beta lifesciences operations wait OPERATION_ID
    

    Une fois l'opération terminée, elle renvoie le message suivant :

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  4. Pour vérifier que le fichier BAI a été généré, exécutez la commande gsutil ls :

    gsutil ls gs://PROJECT_ID-life-sciences
    

    Si l'opération réussit, la commande renvoie les éléments suivants :

    gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

Vous venez d'exécuter un pipeline utilisant l'API Cloud Life Sciences pour créer un fichier BAI à partir d'un fichier BAM. Utilisez un lecteur de génome pour examiner le fichier BAM NA12878.chr20.sample.bam à l'aide du fichier d'index NA12878.chr20.sample.bam.bai.

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page ne soient facturées sur votre compte Google Cloud, procédez comme suit :

Supprimer le fichier BAI

Pour supprimer le fichier BAI généré tout en conservant le projet et le bucket que vous avez créés, exécutez la commande gsutil rm :

gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Supprimer le bucket

Si vous avez créé le bucket spécifiquement pour ce démarrage rapide et que vous n'en avez plus besoin, mais que vous souhaitez conserver votre projet, supprimez le bucket à l'aide de la commande gsutil rb. La suppression du bucket supprime également le fichier BAI généré.

gsutil rb gs://PROJECT_ID-life-sciences

Supprimer le projet

Si vous avez créé le projet spécifiquement pour ce démarrage rapide et que vous n'en avez plus besoin, vous pouvez le supprimer. La suppression du projet entraîne celle du fichier BAI et du bucket Cloud Storage.

  1. Dans la console Google Cloud, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Comment ça s'est passé ?

Étapes suivantes