Exécuter le modèle Transformer avec Tensor2Tensor sur Cloud TPU

Ce tutoriel explique comment entraîner le modèle Transformer issu de l'article Attention Is All You Need) avec Tensor2Tensor sur un appareil Cloud TPU.

Description du modèle

Le modèle Transformer exploite des piles de couches d'auto-attention et à propagation avant pour traiter des entrées séquentielles telles que du texte. Il est compatible avec les variantes suivantes :

transformer (décodeur uniquement) pour la modélisation de séquences uniques. Exemple de cas d'utilisation : modélisation du langage.
transformer (encodeur/décodeur) pour la modélisation séquence-séquence. Exemple de cas d'utilisation : traduction.
transformer_encoder (encodeur uniquement), qui n'exécute que l'encodeur pour la modélisation séquence-classe. Exemple de cas d'utilisation : classification des sentiments.

Le modèle Transformer ne constitue qu'un des modèles de la bibliothèque Tensor2Tensor. Tensor2Tensor (T2T) est une bibliothèque de modèles et d'ensembles de données de deep learning ainsi qu'un ensemble de scripts permettant d'entraîner les modèles et de télécharger et préparer les données.

Objectifs

Générer l'ensemble de données d'entraînement
Entraîner un modèle de langage sur un seul Cloud TPU ou sur un pod Cloud TPU
Entraîner un modèle de traduction anglais/allemand sur un seul Cloud TPU
Entraîner un classificateur de sentiments sur un seul Cloud TPU
Nettoyer les ressources Cloud TPU

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

Compute Engine
Cloud TPU
Cloud Storage

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

Si vous prévoyez d'effectuer l'entraînement sur une tranche de pod TPU, consultez la section Entraîner sur des pods TPU qui explique les points particuliers à prendre en compte lors d'un entraînement sur une tranche de pod.

Avant de commencer ce tutoriel, suivez les étapes ci-dessous pour vérifier que votre projet Google Cloud est correctement configuré.

Cette section fournit des informations sur la configuration du bucket Cloud Storage et d'une VM Compute Engine.

Ouvrez une fenêtre Cloud Shell.

Ouvrir Cloud Shell
Créez une variable pour l'ID de votre projet.
```
export PROJECT_ID=project-id
```
Configurez la CLI Google Cloud pour utiliser le projet dans lequel vous souhaitez créer un Cloud TPU.
```
gcloud config set project ${PROJECT_ID}
```
La première fois que vous exécutez cette commande dans une nouvelle VM Cloud Shell, une page Authorize Cloud Shell s'affiche. Cliquez sur Authorize en bas de la page pour permettre à gcloud d'effectuer des appels d'API GCP avec vos identifiants.

Créez un compte de service pour le projet Cloud TPU.

gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID

La commande renvoie un compte de service Cloud TPU au format suivant :

service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com

Créez un bucket Cloud Storage à l'aide de la commande suivante :

Remarque:Dans la commande suivante, remplacez bucket-name par le nom que vous souhaitez attribuer à votre bucket.
```
gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 -b on gs://bucket-name
```
Ce bucket Cloud Storage stocke les données que vous utilisez pour entraîner votre modèle, ainsi que les résultats de l'entraînement. L'outil gcloud compute tpus execution-groups utilisé dans ce tutoriel définit les autorisations par défaut pour le compte de service Cloud TPU. Si vous souhaitez utiliser des autorisations plus précises, vérifiez les autorisations de niveau d'accès.

L'emplacement du bucket doit se trouver dans la même région que votre machine virtuelle (VM) et votre nœud TPU. Les VM et les nœuds TPU sont situés dans des zones spécifiques, qui sont des subdivisions au sein d'une région.
Lancez une VM Compute Engine à l'aide de la commande gcloud.

Remarque :Ce tutoriel utilise TensorFlow 1.15.5, qui est basé sur l'image Debian 10 et utilise par défaut la version Python 3.6. Les versions antérieures de TensorFlow 1.15.x étaient basées sur Debian 9 et utilisaient par défaut Python 3.5.
```
$ gcloud compute tpus execution-groups create \
 --vm-only \
 --name=transformer-tutorial \
 --zone=europe-west4-a \
 --disk-size=300 \
 --machine-type=n1-standard-8 \
 --tf-version=1.15.5
```
Description des options de commande

vm-only

Pour créer une VM uniquement. Par défaut, la commande gcloud compute tpus execution-groups crée une VM et un Cloud TPU.

name

Nom du Cloud TPU à créer.

zone

Zone dans laquelle vous prévoyez de créer votre Cloud TPU.

disk-size

Taille du disque dur en Go de la VM créée par la commande gcloud compute tpus execution-groups.

machine-type

Type de machine de la VM Compute Engine à créer.

tf-version

Version de TensorFlow gcloud compute tpus execution-groups installée sur la VM.

Pour en savoir plus sur la commande gcloud, consultez la documentation de référence de gcloud.
La configuration que vous avez spécifiée apparaît. Saisissez y pour approuver ou n pour annuler.

Remarque:La première fois que vous exécutez gcloud compute tpus execution-groups sur un projet, les tâches de démarrage, telles que la propagation de clé SSH et l'activation de l'API, prennent environ cinq minutes.

Une fois l'exécution de la commande gcloud compute tpus execution-groups terminée, vérifiez que l'invite de l'interface système est passée de username@projectname à username@vm-name. Cette modification indique que vous êtes maintenant connecté à votre VM Compute Engine.

Remarque : Si vous n'êtes pas connecté à l'instance Compute Engine, vous pouvez le faire en exécutant la commande suivante :
```
gcloud compute ssh transformer-tutorial --zone=europe-west4-a
```
À mesure que vous appliquez ces instructions, exécutez chaque commande commençant par (vm)$ dans votre instance Compute Engine.

Sur la VM Compute Engine, effectuez les étapes ci-dessous :

Créez les variables d'environnement suivantes :

(vm)$ export STORAGE_BUCKET=gs://bucket-name

(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/transformer
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/data
(vm)$ export TMP_DIR=${HOME}/t2t_tmp

Créez un répertoire pour stocker les fichiers temporaires :
```
(vm)$ mkdir ${TMP_DIR}
```
Ajoutez le chemin d'accès aux scripts tensor2tensor utilisés pour traiter les données du modèle :
```
(vm)$ export PATH=.local/bin:${PATH}
```

Entraîner un modèle de langage sur un seul Cloud TPU

Générez l'ensemble de données d'entraînement pour le modèle de langage.
```
(vm)$ t2t-datagen --problem=languagemodel_lm1b32k_packed \
 --data_dir=${DATA_DIR} \
 --tmp_dir=${TMP_DIR}
```
Description des options de commande

problem

Nom du problème.

data_dir

Chemin d'accès Cloud Storage de l'entrée d'entraînement.

tmp_dir

Répertoire de stockage temporaire.

Remarque:Le téléchargement, le prétraitement et l'importation dans Cloud Storage pour l'ensemble de données prennent environ deux heures.
Exécutez la commande suivante pour créer votre ressource Cloud TPU.
```
(vm)$ gcloud compute tpus execution-groups create --tpu-only \
 --zone=europe-west4-a \
 --tf-version=1.15.5 \
 --name=transformer-tutorial
```
Description des options de commande

tpu-only

Crée un Cloud TPU uniquement. Par défaut, la commande gcloud compute tpus execution-groups crée une VM et un Cloud TPU.

zone

Zone dans laquelle vous prévoyez de créer votre Cloud TPU. Il doit s'agir de la même zone que celle utilisée pour la VM Compute Engine. Par exemple, europe-west4-a.

tf-version

Version de TensorFlow ctpu installée sur la VM.

name

Nom du Cloud TPU à créer.
Définissez une variable d'environnement pour le nom du TPU.
```
(vm)$ export TPU_NAME=transformer-tutorial
```
Exécutez le script d'entraînement.
```
(vm)$ t2t-trainer \
 --model=transformer \
 --hparams_set=transformer_tpu \
 --problem=languagemodel_lm1b32k_packed \
 --eval_steps=3 \
 --data_dir=${DATA_DIR} \
 --output_dir=${MODEL_DIR}/language_lm1b32k \
 --use_tpu=True \
 --cloud_tpu_name=${TPU_NAME} \
 --train_steps=10
```
Description des options de commande

model

Modèle à entraîner.

hparams_set

Hyperparamètres à utiliser lors de l'entraînement.

problem

Nom du problème.

eval-steps

Nombre d'étapes à évaluer.

data_dir

Chemin d'accès Cloud Storage où les données d'entraînement sont stockées.

output_dir

Répertoire de sortie de base à exécuter.

use_tpu

Définissez la valeur sur "true" pour utiliser un Cloud TPU. Sinon, définissez-la sur "false".

cloud_tpu_name

Nom du Cloud TPU à utiliser pour l'entraînement.

train_steps

Nombre d'étapes d'entraînement.

La commande ci-dessus exécute 10 pas d'apprentissage, puis trois pas d'évaluation. Le processus prend environ 5 minutes sur un nœud TPU v3-8. Pour améliorer la précision de ce modèle, vous devez augmenter le nombre de pas d'entraînement en ajustant l'indicateur --train_steps. Il est recommandé d'entraîner le modèle en utilisant au moins 40 000 pas. Le modèle atteint habituellement sa qualité maximale au bout d'environ 250 000 pas.

Supprimez la ressource Cloud TPU que vous avez créée.

$ gcloud compute tpus execution-groups delete transformer-tutorial \
  --zone=europe-west4-a \
  --tpu-only

Entraîner un modèle de langage sur un pod Cloud TPU

Exécutez la commande gcloud à l'aide du paramètre accelerator-type pour spécifier la tranche de pod que vous souhaitez utiliser. Par exemple, la commande suivante utilise une tranche de pod v2-32.
```
(vm)$ gcloud compute tpus execution-groups create \
 --tpu-only \
 --accelerator-type=v2-32 \
 --name=transformer-tutorial-pod \
 --zone=europe-west4-a \
 --tf-version=1.15.5
```
Description des options de commande

tpu-only

Crée le Cloud TPU sans créer de VM. Par défaut, la commande gcloud compute tpus execution-groups crée une VM et un Cloud TPU.

accelerator-type

Type du Cloud TPU à créer.

name

Nom du Cloud TPU à créer.

zone

Zone dans laquelle vous prévoyez de créer votre Cloud TPU.

tf-version

Version de TensorFlow ctpu installée sur la VM.
Définissez une variable d'environnement pour le nouveau nom de TPU.
```
(vm)$ export TPU_NAME=transformer-tutorial-pod
```
Exécutez le script d'entraînement.
```
(vm)$ t2t-trainer \
 --model=transformer \
 --hparams_set=transformer_tpu \
 --problem=languagemodel_lm1b32k_packed \
 --eval_steps=3 \
 --data_dir=${DATA_DIR} \
 --output_dir=${MODEL_DIR}/language_lm1b32k_pod \
 --use_tpu=True \
 --cloud_tpu_name=${TPU_NAME} \
 --tpu_num_shards=32  \
 --schedule=train \
 --train_steps=25000
```
Description des options de commande

model

Modèle à entraîner.

hparams_set

Hyperparamètres à utiliser lors de l'entraînement.

problem

Nom du problème.

eval-steps

Nombre d'étapes à évaluer.

data_dir

Chemin d'accès Cloud Storage où les données d'entraînement sont stockées.

output_dir

Répertoire de sortie de base à exécuter.

use_tpu

Définissez la valeur sur "true" pour utiliser un Cloud TPU. Sinon, définissez-la sur "false".

cloud_tpu_name

Nom du Cloud TPU à utiliser pour l'entraînement.

tpu_num_shards

Nombre de segments Cloud TPU. La valeur par défaut est 8.

schedule

Méthode de test à exécuter.

train_steps

Nombre d'étapes d'entraînement du modèle.

La commande ci-dessus exécute 25 000 pas d'entraînement, puis trois pas d'évaluation. Cet entraînement prend environ 30 minutes sur un Cloud TPU v2-32.

Il est recommandé d'entraîner le modèle en utilisant au moins 40 000 pas. Le modèle atteint habituellement sa qualité maximale au bout d'environ 250 000 pas.

Supprimez la ressource Cloud TPU que vous avez créée pour l'entraînement.

(vm)$ gcloud compute tpus execution-groups delete transformer-tutorial \
  --zone=europe-west4-a \
  --tpu-only

Entraîner un modèle de traduction anglais/allemand sur un seul Cloud TPU

Utilisez le script t2t-datagen pour générer les données d'entraînement et d'évaluation du modèle de traduction sur le bucket Cloud Storage :
```
(vm)$ t2t-datagen \
 --problem=translate_ende_wmt32k_packed \
 --data_dir=${DATA_DIR} \
 --tmp_dir=${TMP_DIR}
```
Description des options de commande

problem

Nom du problème.

data_dir

Chemin d'accès Cloud Storage de l'entrée d'entraînement.

tmp_dir

Répertoire de stockage temporaire.

Remarque:Le téléchargement, le prétraitement et l'importation dans Cloud Storage pour l'ensemble de données prennent environ deux heures.
Exécutez la commande suivante pour créer votre ressource Cloud TPU.
```
(vm)$ gcloud compute tpus execution-groups create --tpu-only \
 --zone=europe-west4-a \
 --tf-version=1.15.5 \
 --name=transformer-tutorial
```
Description des options de commande

tpu-only

Crée un Cloud TPU uniquement. Par défaut, la commande gcloud compute tpus execution-groups crée une VM et un Cloud TPU.

zone

Zone dans laquelle vous prévoyez de créer votre Cloud TPU.

tf-version

Version de TensorFlow gcloud compute tpus execution-groups installée sur la VM.

name

Nom du Cloud TPU à créer.
Définissez une variable d'environnement pour le nouveau nom de TPU.
```
(vm)$ export TPU_NAME=transformer-tutorial
```
Exécutez t2t-trainer pour entraîner et évaluer le modèle:
```
(vm)$ t2t-trainer \
 --model=transformer \
 --hparams_set=transformer_tpu \
 --problem=translate_ende_wmt32k_packed \
 --eval_steps=3 \
 --data_dir=${DATA_DIR} \
 --output_dir=${MODEL_DIR}/translate_ende \
 --use_tpu=True \
 --cloud_tpu_name=${TPU_NAME} \
 --train_steps=10
```
Description des options de commande

model

Modèle à entraîner.

hparams_set

Hyperparamètres à utiliser lors de l'entraînement.

problem

Nom du problème.

eval-steps

Nombre d'étapes à évaluer.

data_dir

Chemin d'accès Cloud Storage où les données d'entraînement sont stockées.

output_dir

Répertoire de sortie de base à exécuter.

use_tpu

Définissez la valeur sur "true" pour utiliser un Cloud TPU. Sinon, définissez-la sur "false".

cloud_tpu_name

Nom du Cloud TPU à utiliser pour l'entraînement.

train_steps

Nombre d'étapes d'entraînement du modèle.

La commande ci-dessus exécute 10 pas d'apprentissage, puis trois pas d'évaluation. Le processus prend environ 5 minutes sur un nœud TPU v3-8. Vous pouvez (et devez) augmenter le nombre de pas d'entraînement en ajustant l'indicateur --train_steps. Les traductions commencent généralement à être acceptables après environ 40 000 pas. Le modèle atteint habituellement sa qualité maximale au bout d'environ 250 000 pas.

Supprimez la ressource Cloud TPU que vous avez créée pour entraîner le modèle sur un seul appareil.

(vm)$ gcloud compute tpus execution-groups delete transformer-tutorial \
 --tpu-only \
 --zone=europe-west4-a

Entraîner un classificateur de sentiments sur un seul Cloud TPU

Générez l'ensemble de données du modèle de classificateur de sentiments.
```
(vm)$ t2t-datagen --problem=sentiment_imdb \
 --data_dir=${DATA_DIR} \
 --tmp_dir=${TMP_DIR}
```
Remarque:Le téléchargement, le prétraitement et l'importation dans Cloud Storage pour l'ensemble de données prennent environ deux heures.
Exécutez la commande suivante pour créer votre ressource Cloud TPU.
```
(vm)$ gcloud compute tpus execution-groups create --tpu-only \
 --zone=europe-west4-a \
 --tf-version=1.15.5 \
 --name=transformer-tutorial
```
Description des options de commande

tpu-only

Crée un Cloud TPU uniquement. Par défaut, la commande gcloud compute tpus execution-groups crée une VM et un Cloud TPU.

zone

Zone dans laquelle vous prévoyez de créer votre Cloud TPU.

tf-version

Version de TensorFlow gcloud compute tpus execution-groups installée sur la VM.

name

Nom du Cloud TPU à créer.
Exécutez le script d'entraînement.
```
(vm)$ t2t-trainer \
 --model=transformer_encoder \
 --hparams_set=transformer_tiny_tpu \
 --problem=sentiment_imdb \
 --eval_steps=1 \
 --data_dir=${DATA_DIR} \
 --output_dir=${MODEL_DIR}/sentiment_classifier \
 --use_tpu=True \
 --cloud_tpu_name=${TPU_NAME} \
 --train_steps=10
```
Description des options de commande

model

Modèle à entraîner.

hparams_set

Hyperparamètres à utiliser lors de l'entraînement.

problem

Nom du problème.

eval-steps

Nombre d'étapes à évaluer.

data_dir

Chemin d'accès Cloud Storage où les données d'entraînement sont stockées.

output_dir

Répertoire de sortie de base à exécuter.

use_tpu

Définissez la valeur sur "true" pour utiliser un Cloud TPU. Sinon, définissez-la sur "false".

cloud_tpu_name

Nom du Cloud TPU à utiliser pour l'entraînement.

train_steps

Nombre d'étapes d'entraînement du modèle.

La commande ci-dessus exécute 10 pas d'apprentissage, puis trois pas d'évaluation. Le processus prend environ 5 minutes sur un nœud TPU v3-8. Le modèle atteint une précision avoisinant les 85 % après environ 2 000 pas.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Déconnectez-vous de l'instance Compute Engine, si vous ne l'avez pas déjà fait :
```
(vm)$ exit
```
Votre invite devrait maintenant être username@projectname, indiquant que vous êtes dans Cloud Shell.
Dans Cloud Shell, exécutez la commande gcloud compute tpus execution-groups avec l'option --zone utilisée lors de votre configuration Cloud TPU pour supprimer votre VM Compute Engine et votre Cloud TPU :
```
$ gcloud compute tpus execution-groups delete transformer-tutorial \
--zone=europe-west4-a
```
Important : Si vous avez défini le nom des ressources TPU lors de l'exécution de gcloud compute tpus execution-groups, vous devez spécifier ce nom avec l'option --name lorsque vous exécutez gcloud compute tpus execution-groups delete pour arrêter vos ressources TPU.
Vérifiez que les ressources ont été supprimées en exécutant la commande gcloud compute tpus execution-groups list. La suppression peut prendre plusieurs minutes. Une réponse semblable à la suivante indique que vos instances ont bien été supprimées.
```
$ gcloud compute tpus execution-groups list \
 --zone=europe-west4-a
```
Vous devriez voir une liste vide de TPU comme ci-dessous:
```
   NAME             STATUS
```
Supprimez votre bucket Cloud Storage à l'aide de gsutil, comme indiqué ci-dessous. Remplacez bucket-name par le nom de votre bucket Cloud Storage.

Attention : Toutes les données d'entraînement seront perdues lorsque vous supprimerez votre bucket. N'effectuez cette étape que lorsque vous avez terminé le tutoriel.
```
$ gsutil rm -r gs://bucket-name
```

Étapes suivantes

Les tutoriels TensorFlow Cloud TPU permettent généralement d'entraîner le modèle à l'aide d'un exemple d'ensemble de données. Les résultats de cet entraînement ne sont pas utilisables pour l'inférence. Pour utiliser un modèle d'inférence, vous pouvez entraîner les données sur un ensemble de données public ou votre propre ensemble de données. Les modèles TensorFlow entraînés sur des Cloud TPU nécessitent généralement des ensembles de données au format TFRecord.

Vous pouvez utiliser l'exemple d'outil de conversion d'ensemble de données pour convertir un ensemble de données de classification d'images au format TFRecord. Si vous n'utilisez pas de modèle de classification d'images, vous devez convertir vous-même votre ensemble de données au format TFRecord. Pour en savoir plus, consultez la page TFRecord et tf.Example.

Réglages d'hyperparamètres

Pour améliorer les performances du modèle sur votre ensemble de données, vous pouvez régler ses hyperparamètres. Vous trouverez des informations sur les hyperparamètres communs à tous les modèles compatibles avec des TPU sur GitHub. Des informations sur les hyperparamètres spécifiques aux modèles sont disponibles dans le code source de chaque modèle. Pour en savoir plus sur ces réglages, consultez les pages Présentation des réglages d'hyperparamètres, Utiliser le service de réglage d'hyperparamètres et Régler les hyperparamètres.

Inférence

Une fois votre modèle entraîné, vous pouvez l'utiliser pour l'inférence (également appelée prédiction). AI Platform est une solution cloud permettant de développer, d'entraîner et de déployer des modèles de machine learning. Une fois un modèle déployé, vous pouvez utiliser le service AI Platform Prediction.

Découvrez d'autres modèles Tensor2Tensor pour les TPU.
Testez d'autres exemples TPU.
Découvrez les outils TPU dans TensorBoard.

Exécuter le modèle Transformer avec Tensor2Tensor sur Cloud TPU

Description du modèle

Objectifs

Coûts

Avant de commencer

Description des options de commande

Entraîner un modèle de langage sur un seul Cloud TPU

Description des options de commande

Description des options de commande

Description des options de commande

Entraîner un modèle de langage sur un pod Cloud TPU

Description des options de commande

Description des options de commande

Entraîner un modèle de traduction anglais/allemand sur un seul Cloud TPU

Description des options de commande

Description des options de commande

Description des options de commande

Entraîner un classificateur de sentiments sur un seul Cloud TPU

Description des options de commande

Description des options de commande

Effectuer un nettoyage

Étapes suivantes

Réglages d'hyperparamètres

Inférence