Traiter des données génomiques à l'aide de Cloud Life Sciences
Cette page explique comment exécuter un pipeline génomique qui utilise l'API Cloud Life Sciences pour créer un fichier d'index (fichier BAI) à partir d'un fichier binaire contenant des séquences d'ADN (fichier BAM).
Les fichiers BAM sont généralement volumineux et leur lecture avec un lecteur de génome peut prendre beaucoup de temps. Vous utilisez un fichier BAI pour localiser les parties du fichier BAM contenant la position génomique qui vous intéresse.
Avant de commencer
- Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
- Installez Python 3.8.
Si vous utilisez Windows et que vous n'avez pas coché la case correspondante lors de vous avez installé la Google Cloud CLI, cela s'est fait automatiquement.
Vous pouvez également utiliser Cloud Shell, sur lequel gcloud CLI est déjà installé.
Exécuter le pipeline
Pour exécuter le pipeline, procédez comme suit :
Créez un bucket dans lequel vous allez stocker le fichier BAI. Les buckets sont les conteneurs de base dans lesquels sont stockées vos données dans Cloud Storage. Pour créer un bucket nommé
PROJECT_ID-life-sciences
, exécuter la commandegcloud storage buckets create
commande:gcloud storage buckets create gs://PROJECT_ID-life-sciences
Remplacez PROJECT_ID par l'ID de votre projet Google Cloud. Vous devez utiliser un nom de bucket unique.
Si l'opération réussit, la commande renvoie les éléments suivants :
Creating gs://PROJECT_ID-life-sciences
Pour démarrer le pipeline, exécutez la commande
gcloud beta lifesciences pipelines run
:gcloud beta lifesciences pipelines run \ --regions us-east1 \ --command-line 'samtools index ${BAM} ${BAI}' \ --docker-image "gcr.io/cloud-lifesciences/samtools" \ --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \ --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
Si l'opération réussit, la commande renvoie les éléments suivants :
Running [projects/PROJECT_ID/operations/OPERATION_ID]
Notez la valeur de OPERATION_ID. Vous l'utiliserez à l'étape suivante.
Pour suivre l'état du pipeline, exécutez la commande
gcloud beta lifesciences operations wait
. Remplacez OPERATION_ID par la valeur affichée à l'étape précédente. Le déploiement prend quelques minutes.gcloud beta lifesciences operations wait OPERATION_ID
Une fois l'opération terminée, elle renvoie le message suivant :
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
Pour vérifier que le fichier BAI a été généré, exécutez la commande
gcloud storage ls
:gcloud storage ls gs://PROJECT_ID-life-sciences
Si l'opération réussit, la commande renvoie les éléments suivants :
gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
Vous venez d'exécuter un pipeline utilisant l'API Cloud Life Sciences pour créer un fichier BAI à partir d'un fichier BAM. Utilisez un lecteur de génome pour examiner le fichier BAM NA12878.chr20.sample.bam
à l'aide du fichier d'index NA12878.chr20.sample.bam.bai
.
Effectuer un nettoyage
Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :
Supprimer le fichier BAI
Pour supprimer le fichier BAI généré tout en conservant le projet et le bucket que vous avez créés, exécutez la commande gcloud storage rm
:
gcloud storage rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
Supprimer le bucket
Si vous avez créé le bucket spécifiquement pour ce démarrage rapide et que vous n'en avez plus besoin, mais que vous souhaitez conserver votre projet, supprimez le bucket à l'aide de la commande gcloud storage rm
. En supprimant les
supprime également le fichier BAI généré.
gcloud storage rm gs://PROJECT_ID-life-sciences --recursive
Supprimer le projet
Si vous avez créé le projet spécifiquement pour ce démarrage rapide et que vous n'en avez plus besoin, vous pouvez le supprimer. La suppression du projet entraîne celle du fichier BAI et du bucket Cloud Storage.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Comment ça s'est passé ?
Étape suivante
- Apprenez-en davantage sur les ensembles de données publics de l'API Cloud Life Sciences.
- Découvrez comment charger des données de variantes dans Cloud Storage ou BigQuery.
- Découvrez comment analyser des variantes avec BigQuery.