Exécuter un calcul sur une VM Cloud TPU à l'aide de JAX

Ce document décrit brièvement l'utilisation de JAX et de Cloud TPU.

Avant de commencer

Avant d'exécuter les commandes de ce document, vous devez créer un compte Google Cloud, installer la Google Cloud CLI et configurer la commande gcloud. Pour en savoir plus, consultez la section Configurer l'environnement Cloud TPU.

Créer une VM Cloud TPU à l'aide de `gcloud`

Définissez des variables d'environnement pour faciliter l'utilisation des commandes.

export PROJECT_ID=your-project-id
export TPU_NAME=your-tpu-name
export ZONE=us-east5-a
export ACCELERATOR_TYPE=v5litepod-8
export RUNTIME_VERSION=v2-alpha-tpuv5-lite

Descriptions des variables d'environnement

Variable	Description
`PROJECT_ID`	ID de votre projet Google Cloud . Utilisez un projet existant ou créez-en un.
`TPU_NAME`	Nom du TPU.
`ZONE`	Zone dans laquelle créer la VM TPU. Pour en savoir plus sur les zones compatibles, consultez la section Régions et zones de TPU.
`ACCELERATOR_TYPE`	Le type d'accélérateur spécifie la version et la taille du Cloud TPU que vous souhaitez créer. Pour en savoir plus sur les types d'accélérateurs compatibles avec chaque version de TPU, consultez Versions de TPU.
`RUNTIME_VERSION`	Version logicielle de Cloud TPU.

Créez votre VM TPU en exécutant la commande suivante à partir d'un environnement Cloud Shell ou du terminal d'ordinateur sur lequel la Google Cloud CLI est installée.

$ gcloud compute tpus tpu-vm create $TPU_NAME \
    --project=$PROJECT_ID \
    --zone=$ZONE \
    --accelerator-type=$ACCELERATOR_TYPE \
    --version=$RUNTIME_VERSION

Se connecter à la VM Cloud TPU

Connectez-vous à votre VM TPU via SSH à l'aide de la commande suivante :

$ gcloud compute tpus tpu-vm ssh $TPU_NAME \
    --project=$PROJECT_ID \
    --zone=$ZONE

Si vous ne parvenez pas à vous connecter à une VM TPU à l'aide de SSH, il est possible que la VM TPU ne possède pas d'adresse IP externe. Pour accéder à une VM TPU sans adresse IP externe, suivez les instructions de la section Se connecter à une VM TPU sans adresse IP publique.

Installer JAX sur votre VM Cloud TPU

(vm)$ pip install jax[tpu] -f https://storage.googleapis.com/jax-releases/libtpu_releases.html

Vérifier le système

Vérifiez que JAX peut accéder au TPU et exécuter des opérations de base :

Démarrez l'interpréteur Python 3 :
```
(vm)$ python3
```
```
>>> import jax
```
Affichez le nombre de cœurs de TPU disponibles :
```
>>> jax.device_count()
```

Le nombre de cœurs de TPU s'affiche. Le nombre de cœurs affiché dépend de la version de TPU que vous utilisez. Pour en savoir plus, consultez Versions de TPU.

Effectuer un calcul

>>> jax.numpy.add(1, 1)

Le résultat de l'ajout de Numpy s'affiche :

Résultat de la commande :

Array(2, dtype=int32, weak_type=True)

Quitter l'interpréteur Python

>>> exit()

Exécuter du code JAX sur une VM TPU

Vous pouvez maintenant exécuter n'importe quel code JAX. Les exemples Flax constituent un bon point de départ pour exécuter des modèles de ML standards dans JAX. Par exemple, pour entraîner un réseau convolutif MNIST de base :

Installez les dépendances des exemples Flax :

(vm)$ pip install --upgrade clu
(vm)$ pip install tensorflow
(vm)$ pip install tensorflow_datasets

Installez Flax :

(vm)$ git clone https://github.com/google/flax.git
(vm)$ pip install --user flax

Exécutez le script d'entraînement Flax MNIST :

(vm)$ cd flax/examples/mnist
(vm)$ python3 main.py --workdir=/tmp/mnist \
    --config=configs/default.py \
    --config.learning_rate=0.05 \
    --config.num_epochs=5

Le script télécharge l'ensemble de données et lance l'entraînement. Le résultat du script doit se présenter comme suit :

I0214 18:00:50.660087 140369022753856 train.py:146] epoch:  1, train_loss: 0.2421, train_accuracy: 92.97, test_loss: 0.0615, test_accuracy: 97.88
I0214 18:00:52.015867 140369022753856 train.py:146] epoch:  2, train_loss: 0.0594, train_accuracy: 98.16, test_loss: 0.0412, test_accuracy: 98.72
I0214 18:00:53.377511 140369022753856 train.py:146] epoch:  3, train_loss: 0.0418, train_accuracy: 98.72, test_loss: 0.0296, test_accuracy: 99.04
I0214 18:00:54.727168 140369022753856 train.py:146] epoch:  4, train_loss: 0.0305, train_accuracy: 99.06, test_loss: 0.0257, test_accuracy: 99.15
I0214 18:00:56.082807 140369022753856 train.py:146] epoch:  5, train_loss: 0.0252, train_accuracy: 99.20, test_loss: 0.0263, test_accuracy: 99.18

Effectuer un nettoyage

Pour éviter que les ressources utilisées dans cette démonstration soient facturées sur votre compte Google Cloud , procédez comme suit :

Lorsque vous avez fini d'utiliser votre VM TPU, suivez ces étapes pour nettoyer vos ressources.

Déconnectez-vous de l'instance Cloud TPU, si vous ne l'avez pas déjà fait :
```
(vm)$ exit
```
Votre invite de commande doit maintenant afficher username@projectname, ce qui indique que vous êtes dans Cloud Shell.

Supprimez votre Cloud TPU :

$ gcloud compute tpus tpu-vm delete $TPU_NAME \
    --project=$PROJECT_ID \
    --zone=$ZONE

Vérifiez que les ressources ont bien été supprimées en exécutant la commande suivante. Assurez-vous que votre TPU n'est plus répertorié. La suppression peut prendre plusieurs minutes.
```
$ gcloud compute tpus tpu-vm list \
    --zone=$ZONE
```

Remarques concernant les performances

Voici quelques informations importantes, particulièrement pertinentes pour l'utilisation de TPU dans JAX.

Remplissage

L'une des causes les plus courantes de ralentissement des performances sur les TPU est l'introduction d'un remplissage involontaire :

Les tableaux dans Cloud TPU sont tuilés. Cela implique de compléter l'une des dimensions jusqu'à un multiple de 8, et une autre jusqu'à un multiple de 128.
L'unité de multiplication matricielle fonctionne mieux avec des paires de matrices volumineuses qui minimisent le besoin de remplissage.

dtype bfloat16

Par défaut, la multiplication matricielle dans JAX sur les TPU utilise bfloat16 avec l'accumulation float32. Elle peut être contrôlée à l'aide de l'argument de précision pour les appels de fonction jax.numpy pertinents (matmul, point, einsum, etc.). En particulier :

precision=jax.lax.Precision.DEFAULT : utilise la précision bfloat16 mixte (la plus rapide).
precision=jax.lax.Precision.HIGH : utilise plusieurs passes MXU pour obtenir une précision plus élevée.
precision=jax.lax.Precision.HIGHEST : utilise encore plus de passes MXU pour obtenir une précision float32 complète.

JAX ajoute également le dtype bfloat16, que vous pouvez utiliser pour caster explicitement des tableaux au format bfloat16. Exemple : jax.numpy.array(x, dtype=jax.numpy.bfloat16).

Étapes suivantes

Pour en savoir plus sur Cloud TPU, consultez les pages suivantes :