Gérer les TPU

L'entraînement d'un modèle de machine learning (ML) nécessite une VM Compute Engine et des ressources Cloud TPU. Cette page explique comment gérer ces ressources à l'aide de :

Prérequis

Pour exécuter ces procédures, vous devez configurer un projet Google Cloud Platform (GCP). Si vous n'avez pas de projet, consultez la section Créer et gérer des projets pour en créer un.

Si vous utilisez la commande gcloud, vous pouvez utiliser Google Cloud Shell ou installer la commande gcloud en local. Google Cloud Shell vous permet d'interagir avec les Cloud TPU sans avoir à installer de logiciel. Google Cloud Shell peut se déconnecter après une période d'inactivité. Par conséquent, si vous exécutez des commandes de longue durée, nous vous recommandons d'installer gcloud sur votre ordinateur local. La commande gcloud fait partie du SDK Google Cloud.

  1. Si vous utilisez une invite de commande locale, installez le SDK Google Cloud.
  2. Configurez gcloud pour utiliser votre projet.

    gcloud config set project project-name
    
  3. Configurez gcloud pour utiliser la zone dans laquelle vous prévoyez de créer vos ressources Cloud TPU. Exemple :us-central1-b

    $ gcloud config set compute/zone zone
    

Pour en savoir plus sur la commande gcloud, consultez la documentation de référence de gcloud.

Créer une instance Cloud TPU

Lorsque vous créez un Cloud TPU, vous créez une VM Compute Engine et des ressources TPU.

Créer une instance Cloud TPU avec gcloud

$ gcloud compute tpus execution-groups create --name=tpu-name \
  --zone=zone \
  --tf-version=2.4.1 \
  --machine-type=n1-standard-1 \
  --accelerator-type=v3-8

Description des options de commande

zone
Zone dans laquelle vous prévoyez de créer votre Cloud TPU.
tf-version
La version de TensorFlow que la commande gcloud installe sur votre VM.
machine-type
Type de machine de la VM Compute Engine à créer.
accelerator-type
Type de Cloud TPU à créer.

Créer une instance Cloud TPU dans Google Cloud Console

  1. Accédez à Google Cloud Console.
  2. Dans le menu de navigation, sélectionnez Compute Engine > TPU.
  3. Cliquez sur CRÉER UN NNODEUD TPU.
  4. Dans la zone Nom, saisissez un nom d'instance TPU.
  5. Dans la zone Zone, sélectionnez la zone dans laquelle vous souhaitez créer le TPU.
  6. Dans le champ Type de TPU, sélectionnez le type de TPU que vous souhaitez créer.
  7. Dans le champ Version logicielle du TPU, sélectionnez la version du logiciel. Lorsque vous créez une VM Cloud TPU, la version du logiciel TPU spécifie la version de l'environnement d'exécution TPU à installer. Lors de la création d'un nœud Cloud TPU, la version du logiciel TPU vous permet de choisir le framework de ML installé sur la VM du nœud. Aucun autre paramètre n'est requis. Pour en savoir plus, consultez la page Modèles compatibles.
  8. Cliquez sur CRÉER pour créer vos ressources.

Se connecter à une VM Cloud TPU

$ gcloud compute ssh tpu-name\
  --zone=zone

Répertorier vos ressources Cloud TPU

Vous pouvez répertorier l'ensemble de votre Cloud TPU dans une zone spécifiée.

Répertorier vos ressources Cloud TPU à l'aide de gcloud

$ gcloud compute tpus execution-groups list --zone=zone

Cette commande répertorie les ressources Cloud TPU dans la zone spécifiée. Si aucune ressource n'est configurée actuellement, le résultat n'affiche que des tirets pour la VM et le TPU. Si une ressource est active et que l'autre ne l'est pas, un message indiquant que l'état est non opérationnel s'affiche. Vous devez démarrer ou redémarrer la ressource en cours d'exécution.

Répertorier vos ressources Cloud TPU à l'aide de la console GCP

  1. Accédez à Google Cloud Console.

  2. Dans le menu de navigation, sélectionnez Compute Engine > TPU. La console affiche la page "TPU".

Récupérer des informations sur votre Cloud TPU

Vous pouvez récupérer des informations sur un Cloud TPU spécifié.

Récupérer des informations sur un Cloud TPU à l'aide de gcloud

$ gcloud compute tpus execution-groups describe tpu-name \
  --zone=zone

Récupérer des informations sur un Cloud TPU à l'aide de Google Cloud Console

  1. Accédez à Google Cloud Console.
  2. Dans le menu de navigation, sélectionnez Compute Engine > TPU. La console affiche la page "TPU".
  3. Cliquez sur le nom de votre Cloud TPU. La page d'informations Cloud TPU s'affiche.

Arrêter vos ressources Cloud TPU

Vous pouvez arrêter un Cloud TPU pour ne pas encourir de frais sans perdre la configuration et les logiciels de votre VM.

Arrêter un Cloud TPU avec gcloud

$ gcloud alpha compute tpus stop tpu-name \
  --zone=zone

Arrêter un Cloud TPU dans la console GCP

  1. Accédez à Google Cloud Console.

  2. Dans le menu de navigation, sélectionnez Compute Engine > TPU. La console affiche la page "TPU".

  3. Cochez la case située à côté de votre Cloud TPU, puis cliquez sur Stop (Arrêter).

Démarrer les ressources Cloud TPU

Vous pouvez démarrer un Cloud TPU lorsqu'il est arrêté.

Démarrer un Cloud TPU avec gcloud

$ gcloud alpha compute tpus start tpu-name --zone=zone

Démarrer un Cloud TPU dans la console GCP

  1. Accédez à Google Cloud Console.

  2. Dans le menu de navigation, sélectionnez Compute Engine > TPU. La console affiche la page "TPU".

  3. Cochez la case située à côté de votre Cloud TPU, puis cliquez sur Start (Démarrer).

Supprimer la VM Compute Engine et vos ressources Cloud TPU

Vous pouvez supprimer votre Cloud TPU lorsque vous avez fini de l'utiliser.

Supprimer un Cloud TPU à l'aide de gcloud

$ gcloud compute tpus execution-groups delete tpu-name \
  --zone=zone

Description des options de commande

zone
Zone dans laquelle vous prévoyez de créer votre Cloud TPU.

Supprimer un Cloud TPU à l'aide de la console GCP

  1. Accédez à Google Cloud Console.

  2. Dans le menu de navigation, sélectionnez Compute Engine > TPU. La console affiche la page "TPU".

  3. Cochez la case située à côté de votre Cloud TPU, puis cliquez sur Supprimer.