Optimiser BERT avec Cloud TPU : tâches de classification de phrases et de paires de phrases

Ce tutoriel vous explique comment entraîner le modèle BERT (Bidirectional Encoder Representations from Transformers) sur Cloud TPU.

BERT est une méthode permettant de pré-entraîner des représentations du langage. Le pré-entraînement fait référence à la façon dont le modèle BERT est entraîné pour la première fois à partir d'une importante source de texte, telle que Wikipédia. Vous pouvez ensuite appliquer les résultats de l'entraînement à d'autres tâches de traitement du langage naturel, tels que des systèmes de questions-réponses et l'analyse des sentiments. BERT et Cloud TPU vous permettent d'entraîner de nombreux modèles de traitement du langage naturel en environ 30 minutes.

Pour en savoir plus sur BERT, consultez les ressources suivantes :

Objectifs

  • Créer un bucket Cloud Storage pour stocker votre ensemble de données et la sortie du modèle
  • Cloner le dépôt BERT et d'autres fichiers requis
  • Exécuter la tâche d'entraînement
  • Vérifier les résultats

Coûts

Ce tutoriel utilise des composants facturables de Google Cloud, dont :

  • Instance
  • Cloud TPU
  • Cloud Storage

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

Cette section fournit des informations sur la configuration du bucket Cloud Storage et d'une VM Compute Engine.

  1. Ouvrez une fenêtre Cloud Shell.

    Ouvrir Cloud Shell

  2. Créez une variable pour l'ID de votre projet.

    export PROJECT_ID=project-id
    
  3. Configurez l'outil de ligne de commande gcloud pour utiliser le projet dans lequel vous souhaitez créer Cloud TPU.

    gcloud config set project ${PROJECT_ID}
    
  4. Créez un bucket Cloud Storage à l'aide de la commande suivante :

    gsutil mb -p ${PROJECT_ID} -c standard -l us-central1 -b on gs://bucket-name
    

    Ce bucket Cloud Storage stocke les données que vous utilisez pour entraîner votre modèle, ainsi que les résultats de l'entraînement.

    Pour que Cloud TPU puisse lire et écrire dans le bucket de stockage, le compte de service de votre projet doit disposer d'autorisations de lecture/écriture ou d'administrateur. Consultez la section sur les buckets de stockage pour savoir comment afficher et définir ces autorisations.

  5. Lancez une VM Compute Engine et Cloud TPU à l'aide de la commande ctpu up.

    $ ctpu up --tpu-size=v3-8 \
     --machine-type=n1-standard-8 \
     --zone=us-central1-b \
     --tf-version=1.15.3 \
     --name=bert-tutorial
    
  6. La configuration que vous avez spécifiée apparaît. Saisissez y pour approuver ou n pour annuler.

  7. Une fois l'exécution de la commande ctpu up terminée, vérifiez que l'invite de l'interface système est passée de username@project à username@vm-name. Cette modification indique que vous êtes maintenant connecté à votre VM Compute Engine.

    gcloud compute ssh bert-tutorial --zone=us-central1-b
    

À mesure que vous appliquez ces instructions, exécutez chaque commande commençant par (vm)$ dans la fenêtre de session de la VM.

  1. Définir certaines variables d'environnement

    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    
    (vm)$ export TPU_NAME=bert-tutorial
    (vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/tpu/models"
    (vm)$ export BERT_BASE_DIR=gs://cloud-tpu-checkpoints/bert/uncased_L-12_H-768_A-12
    (vm)$ export GLUE_DIR=$HOME/glue_data
    (vm)$ export TASK_NAME=MRPC
    

Cloner le dépôt BERT

Clonez le dépôt BERT à partir de votre machine virtuelle (VM) Compute Engine.

(vm)$ git clone https://github.com/google-research/bert

Télécharger download_glue_data.py

Ce tutoriel utilise l'analyse comparative GLUE (General Language Understanding Evaluation, évaluation de la compréhension générale du langage) pour évaluer et analyser les performances du modèle. Pour utiliser ce benchmark, téléchargez le script download_glue_data.py à l'aide de la commande git clone suivante :

(vm)$ git clone https://gist.github.com/60c2bdb54d156a41194446737ce03e2e.git download_glue_data

Télécharger les données GLUE

Exécutez maintenant le script download_glue_data.py sur votre VM Compute Engine.

(vm)$ python3 download_glue_data/download_glue_data.py --data_dir $HOME/glue_data --tasks all

Entraîner le modèle

Exécutez la commande suivante depuis votre VM Compute Engine :

python3 ./bert/run_classifier.py \
--task_name=${TASK_NAME} \
--do_train=true \
--do_eval=true \
--data_dir=${GLUE_DIR}/${TASK_NAME} \
--vocab_file=${BERT_BASE_DIR}/vocab.txt \
--bert_config_file=${BERT_BASE_DIR}/bert_config.json \
--init_checkpoint=${BERT_BASE_DIR}/bert_model.ckpt \
--max_seq_length=128 \
--train_batch_size=32 \
--learning_rate=2e-5 \
--num_train_epochs=3.0 \
--output_dir=${STORAGE_BUCKET}/${TASK_NAME}-output/ \
--use_tpu=True \
--tpu_name=${TPU_NAME}

Vérifier les résultats

L'entraînement ne devrait pas prendre plus de cinq minutes. Une fois l'entraînement terminé, vous devriez obtenir les résultats suivants :

***** Eval results *****
  eval_accuracy = 0.845588
  eval_loss = 0.64990824
  global_step = 343
  loss = 0.34979442

Étape suivante

Dans ce tutoriel, vous avez entraîné le modèle BERT à l'aide d'un exemple d'ensemble de données. Les résultats de cet entraînement ne sont pas utilisables pour l'inférence dans la plupart des cas. Afin d'utiliser un modèle pour l'inférence, vous pouvez entraîner les données sur un ensemble de données accessible au public ou sur votre propre ensemble de données. Les modèles entraînés sur des appareils Cloud TPU nécessitent des ensembles de données au format TFRecord.

Vous pouvez utiliser l'exemple d'outil de conversion d'ensemble de données pour convertir un ensemble de données de classification d'images au format TFRecord. Si vous n'utilisez pas de modèle de classification d'images, vous devez convertir vous-même votre ensemble de données au format TFRecord. Pour en savoir plus, consultez la section TFRecord et tf.Example.

Réglages d'hyperparamètres

Pour améliorer les performances du modèle avec votre ensemble de données, vous pouvez régler ses hyperparamètres. Vous trouverez des informations sur les hyperparamètres communs à tous les modèles compatibles avec des TPU sur GitHub. Des informations sur les hyperparamètres spécifiques au modèle sont disponibles dans le code source de chaque modèle. Pour en savoir plus sur ces réglages, consultez les pages Présentation des réglages d'hyperparamètres, Utiliser le service de réglage d'hyperparamètres et Régler les hyperparamètres.

Inférence

Une fois que vous avez entraîné votre modèle, vous pouvez l'utiliser pour l'inférence (également appelée prédiction). AI Platform est une solution basée sur le cloud permettant de développer, d'entraîner et de déployer des modèles de machine learning. Une fois un modèle déployé, vous pouvez utiliser le service AI Platform Prediction.