Gérer les TPU

L'entraînement d'un modèle de machine learning (ML) nécessite une VM Compute Engine et des ressources Cloud TPU. Cette page explique comment gérer ces ressources à l'aide de :

Prérequis

Pour exécuter ces procédures, vous devez configurer un projet Google Cloud Platform (GCP). Si vous n'avez pas de projet, consultez la section Créer et gérer des projets pour en créer un.

Si vous exécutez la commande gcloud, vous pouvez utiliser Google Cloud Shell ou installer la commande gcloud localement. Google Cloud Shell vous permet d'interagir avec les Cloud TPU sans avoir à installer de logiciel. Google Cloud Shell peut se déconnecter après une période d'inactivité. Ainsi, si vous exécutez des commandes de longue durée, nous vous recommandons d'installer gcloud sur votre machine locale. La commande gcloud fait partie du SDK Google Cloud.

  1. Si vous utilisez une invite de commande locale, installez le SDK Google Cloud.
  2. Configurez gcloud pour utiliser votre projet.

    gcloud config set project project-name
    
  3. Configurez gcloud pour utiliser la zone dans laquelle vous prévoyez de créer vos ressources Cloud TPU. Exemple :us-central1-b

    $ gcloud config set compute/zone zone
    

Pour en savoir plus sur la commande gcloud, consultez la documentation de référence de gcloud.

Créer un Cloud TPU

Lorsque vous créez un Cloud TPU, vous créez des ressources TPU et des VM Compute Engine.

Créer un Cloud TPU avec gcloud

$ gcloud compute tpus execution-groups create --name=tpu-name \
  --zone=zone \
  --tf-version=2.4.1 \
  --machine-type=n1-standard-1 \
  --accelerator-type=v3-8

Description des options de commande

zone
Zone dans laquelle vous prévoyez de créer votre Cloud TPU.
tf-version
La version de Tensorflow que la commande gcloud est installée sur votre VM.
machine-type
Type de machine de la VM Compute Engine à créer.
accelerator-type
Type de Cloud TPU à créer.

Créer une ressource Cloud TPU dans Google Cloud Console

  1. Accédez à Google Cloud Console.
  2. Dans le menu de navigation, sélectionnez Compute Engine > TPU.
  3. Cliquez sur CRÉER UN NNODEUD TPU.
  4. Dans le champ Nom, saisissez un nom d'instance TPU.
  5. Dans la zone Zone, sélectionnez la zone dans laquelle vous souhaitez créer le TPU.
  6. Pour le type de TPU, sélectionnez le type de TPU que vous souhaitez créer.
  7. Dans le champ TPU software version (Version du logiciel TPU), sélectionnez la version du logiciel. Lors de la création d'une VM Cloud TPU, la version logicielle du TPU spécifie la version de l'environnement d'exécution TPU à installer. Lors de la création d'un nœud Cloud TPU, la version logicielle du TPU vous permet de choisir le framework de ML installé sur la VM du nœud. Aucun autre paramètre n'est requis. Pour en savoir plus, consultez la page Modèles compatibles.
  8. Cliquez sur CREATE (Créer) pour créer vos ressources.

Se connecter à une VM Cloud TPU

$ gcloud compute ssh tpu-name\
  --zone=zone

Répertorier vos ressources Cloud TPU

Vous pouvez répertorier tous vos Cloud TPU dans une zone spécifiée.

Répertorier vos ressources Cloud TPU avec gcloud

$ gcloud compute tpus execution-groups list --zone=zone

Cette commande répertorie les ressources Cloud TPU dans la zone spécifiée. Si aucune ressource n'est actuellement configurée, la sortie affiche uniquement les tirets de la VM et du TPU. Si une ressource est active et que l'autre ne l'est pas, un message s'affiche indiquant que l'état n'est pas opérationnel. Vous devez démarrer ou redémarrer la ressource inactive.

Répertorier vos ressources Cloud TPU à l'aide de la console GCP

  1. Accédez à Google Cloud Console.

  2. Dans le menu de navigation, sélectionnez Compute Engine > TPU. La console affiche la page TPU.

Récupérer des informations sur votre ressource Cloud TPU

Vous pouvez récupérer des informations sur un Cloud TPU spécifié.

Récupérer des informations sur un Cloud TPU avec gcloud

$ gcloud compute tpus execution-groups describe tpu-name \
  --zone=zone

Récupérer des informations sur un Cloud TPU à l'aide de Google Cloud Console

  1. Accédez à Google Cloud Console.
  2. Dans le menu de navigation, sélectionnez Compute Engine > TPU. La console affiche la page TPU.
  3. Cliquez sur le nom de votre Cloud TPU. La page des détails de la ressource Cloud TPU s'affiche.

Arrêter vos ressources Cloud TPU

Vous pouvez arrêter un Cloud TPU pour arrêter la facturation sans perdre la configuration et le logiciel de votre VM.

Arrêter un Cloud TPU avec gcloud

$ gcloud alpha compute tpus stop tpu-name \
  --zone=zone

Arrêter un Cloud TPU dans la console GCP

  1. Accédez à Google Cloud Console.

  2. Dans le menu de navigation, sélectionnez Compute Engine > TPU. La console affiche la page TPU.

  3. Cochez la case en regard de votre Cloud TPU et cliquez sur Arrêter.

Démarrer vos ressources Cloud TPU

Vous pouvez démarrer un Cloud TPU lorsqu'il est arrêté.

Démarrer un Cloud TPU avec gcloud

$ gcloud alpha compute tpus start tpu-name --zone=zone

Démarrer Cloud TPU dans la console GCP

  1. Accédez à Google Cloud Console.

  2. Dans le menu de navigation, sélectionnez Compute Engine > TPU. La console affiche la page TPU.

  3. Cochez la case en regard de votre Cloud TPU et cliquez sur Démarrer.

Supprimer la VM Compute Engine et vos ressources Cloud TPU

Vous pouvez supprimer votre Cloud TPU lorsque vous avez fini de les utiliser.

Supprimer un Cloud TPU avec gcloud

$ gcloud compute tpus execution-groups delete tpu-name \
  --zone=zone

Description des options de commande

zone
Zone dans laquelle vous prévoyez de créer votre Cloud TPU.

Supprimer un Cloud TPU à l'aide de la console GCP

  1. Accédez à Google Cloud Console.

  2. Dans le menu de navigation, sélectionnez Compute Engine > TPU. La console affiche la page TPU.

  3. Cochez la case en regard de votre Cloud TPU et cliquez sur Supprimer.