Cloud Life Sciences est obsolète et ne sera plus disponible sur Google Cloud après le 8 juillet 2025. Les cas d'utilisation de Cloud Life Sciences sont désormais compatibles avec Batch. Pour savoir comment migrer votre charge de travail, consultez Migrer vers un lot.

Guide de démarrage rapide: traiter des données génomiques à l'aide de Cloud Life Sciences

Traiter des données génomiques à l'aide de Cloud Life Sciences

Cette page explique comment exécuter un pipeline génomique qui utilise l'API Cloud Life Sciences pour créer un fichier d'index (fichier BAI) à partir d'un fichier binaire contenant des séquences d'ADN (fichier BAM).

Les fichiers BAM sont généralement volumineux et peuvent prendre beaucoup de temps à être lus à l'aide d'un lecteur de génome. Vous pouvez utiliser un fichier BAI pour localiser les parties du fichier BAM qui contiennent la position du génome qui vous intéresse.

Avant de commencer

Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.

Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

Accéder au sélecteur de projet

Vérifiez que la facturation est activée pour votre projet Google Cloud.

Activer les API Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

Activer les API

Installez Google Cloud CLI.

Pour initialiser gcloudCLI, exécutez la commande suivante :

gcloud init

Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

Accéder au sélecteur de projet

Vérifiez que la facturation est activée pour votre projet Google Cloud.

Activer les API Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

Activer les API

Installez Google Cloud CLI.

Pour initialiser gcloudCLI, exécutez la commande suivante :

gcloud init

Vous pouvez également utiliser Cloud Shell, qui comprend gcloud CLI.

Installez Python 3.8.
Si vous utilisez Windows et que vous avez coché la case appropriée lors de l'installation de Google Cloud CLI, cette opération a été effectuée automatiquement.

Exécuter le pipeline

Pour exécuter le pipeline, procédez comme suit :

Créez un bucket dans lequel vous allez stocker le fichier BAI. Les buckets sont les conteneurs de base dans lesquels sont stockées vos données dans Cloud Storage. Pour créer un bucket nommé PROJECT_ID-life-sciences, exécutez la commande gsutil mb :
```
gsutil mb gs://PROJECT_ID-life-sciences
```
Remplacez PROJECT_ID par l'ID de votre projet Google Cloud. Vous devez utiliser un nom de bucket unique.
Consultez les règles de dénomination des buckets pour en savoir plus.
- Les noms de buckets ne peuvent contenir que des lettres minuscules, des chiffres, des tirets (-), des traits de soulignement (_) et des points (.). Les espaces ne sont pas autorisées. Les noms contenant des points doivent être validés.
- Les noms de buckets doivent commencer et se terminer par un chiffre ou une lettre.
- Les noms de buckets doivent compter entre 3 et 63 caractères. Ceux qui comportent des points peuvent contenir jusqu'à 222 caractères, mais chaque composant séparé par un point ne peut pas posséder plus de 63 caractères.
- Les noms de buckets ne peuvent pas correspondre à une adresse IP au format décimal à points (par exemple, 192.168.5.4).
- Les noms de buckets ne peuvent pas commencer par le préfixe "goog".
- Les noms de buckets ne peuvent pas contenir "google" ni des termes semblables tels que "g00gle".
Attention : N'incluez aucune information sensible dans le nom des buckets, car leur espace de noms est global et public.

Si l'opération réussit, la commande renvoie les éléments suivants :
```
Creating gs://PROJECT_ID-life-sciences
```

Pour démarrer le pipeline, exécutez la commande gcloud beta lifesciences pipelines run :

gcloud beta lifesciences pipelines run \
    --regions us-east1 \
    --command-line 'samtools index ${BAM} ${BAI}' \
    --docker-image "gcr.io/cloud-lifesciences/samtools" \
    --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
    --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Si l'opération réussit, la commande renvoie les éléments suivants :

Running [projects/PROJECT_ID/operations/OPERATION_ID]

Notez la valeur de OPERATION_ID. Vous l'utiliserez à l'étape suivante.

Pour suivre l'état du pipeline, exécutez la commande gcloud beta lifesciences operations wait. Remplacez OPERATION_ID par la valeur affichée à l'étape précédente. Le déploiement prend quelques minutes.
```
gcloud beta lifesciences operations wait OPERATION_ID
```
Une fois l'opération terminée, elle renvoie le message suivant :
```
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
```
Pour vérifier que le fichier BAI a été généré, exécutez la commande gsutil ls :
```
gsutil ls gs://PROJECT_ID-life-sciences
```
Si l'opération réussit, la commande renvoie les éléments suivants :
```
gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
```

Vous venez d'exécuter un pipeline utilisant l'API Cloud Life Sciences pour créer un fichier BAI à partir d'un fichier BAM. Utilisez un lecteur de génome pour examiner le fichier BAM NA12878.chr20.sample.bam à l'aide du fichier d'index NA12878.chr20.sample.bam.bai.

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page ne soient facturées sur votre compte Google Cloud, procédez comme suit :

Supprimer le fichier BAI

Pour supprimer le fichier BAI généré tout en conservant le projet et le bucket que vous avez créés, exécutez la commande gsutil rm :

gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Supprimer le bucket

Si vous avez créé le bucket spécifiquement pour ce démarrage rapide et que vous n'en avez plus besoin, mais que vous souhaitez conserver votre projet, supprimez le bucket à l'aide de la commande gsutil rb. La suppression du bucket supprime également le fichier BAI généré.

gsutil rb gs://PROJECT_ID-life-sciences

Supprimer le projet

Si vous avez créé le projet spécifiquement pour ce démarrage rapide et que vous n'en avez plus besoin, vous pouvez le supprimer. La suppression du projet entraîne celle du fichier BAI et du bucket Cloud Storage.

Attention : La suppression d'un projet aura les effets suivants :

Tout le contenu du projet est supprimé. Si vous avez utilisé un projet existant pour les tâches de ce document, lorsque vous le supprimez, vous supprimez également tout autre travail effectué dans le projet.
Les ID de projets personnalisés sont perdus. Lorsque vous avez créé ce projet, vous avez peut-être créé un ID de projet personnalisé que vous souhaitez utiliser à l'avenir. Pour conserver les URL qui utilisent l'ID de projet, telle qu'une URL appspot.com, supprimez les ressources sélectionnées dans le projet au lieu de supprimer l'ensemble du projet.

Si vous envisagez d'explorer plusieurs architectures, tutoriels et guides de démarrage rapide, réutiliser des projets peut vous aider à ne pas dépasser les limites de quotas des projets.

Dans la console Google Cloud, accédez à la page Gérer les ressources.
Accéder à la page Gérer les ressources
Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Comment ça s'est passé ?

Étapes suivantes

En savoir plus sur les ensembles de données publics de l'API Cloud Life Sciences
Découvrez comment charger des données de variantes dans Cloud Storage ou BigQuery.
Découvrez comment analyser des variantes avec BigQuery.