Ajuste de BERT con Cloud TPU: tareas de clasificación de oraciones y pares de oraciones (TF 2.x)

En este instructivo se muestra cómo entrenar el modelo Representaciones de codificador bidireccional de transformadores (BERT) en Cloud TPU.

BERT es un método para realizar un entrenamiento previo de representaciones lingüísticas. El entrenamiento previo se refiere a la manera en que BERT se entrena primero en una gran fuente de texto, como Wikipedia. A continuación, puedes aplicar los resultados del entrenamiento a otras tareas de procesamiento de lenguaje natural (PLN), como respuesta a preguntas y análisis de opiniones. Con BERT y Cloud TPU, puedes entrenar una variedad de modelos de PLN en alrededor de 30 minutos.

Para obtener más información sobre BERT, consulta los siguientes recursos:

Objetivos

Crear un bucket de Cloud Storage para almacenar el resultado de tu modelo y tu conjunto de datos
Ejecutar el trabajo de entrenamiento
Verificar los resultados de salida

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

Compute Engine
Cloud TPU
Cloud Storage

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios. Es posible que los usuarios nuevos de Google Cloud califiquen para obtener una prueba gratuita.

Antes de comenzar

En esta sección, se proporciona información sobre cómo configurar el bucket de Cloud Storage y una VM de Compute Engine.

Abre una ventana de Cloud Shell.

Abra Cloud Shell
Crea una variable para el ID de tu proyecto.
```
export PROJECT_ID=project-id
```
Configura Google Cloud CLI para usar el proyecto en el que deseas crear Cloud TPU.
```
gcloud config set project ${PROJECT_ID}
```

Crea una cuenta de servicio para el proyecto de Cloud TPU.

gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID

El comando muestra una cuenta de servicio de Cloud TPU con el siguiente formato:

service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com

Crea un bucket de Cloud Storage con el siguiente comando:

Nota: En el siguiente comando, reemplaza bucket-name por el nombre que deseas asignar a tu bucket.
```
gsutil mb -p ${PROJECT_ID} -c standard -l us-central1 gs://bucket-name
```
Este bucket de Cloud Storage almacena los datos que usas para entrenar tu modelo y los resultados del entrenamiento. El comando que usas a fin de crear una TPU (gcloud compute tpus execution-groups create para la arquitectura de nodo TPU o gcloud compute tpus tpu-vm create para la arquitectura de VM de TPU) configura permisos predeterminados para la cuenta de servicio de Cloud TPU que configuraste en el paso anterior. Si deseas obtener permisos más detallados, revisa los permisos de nivel de acceso.

La ubicación del bucket debe estar en la misma región que tu Compute Engine (VM) y tu nodo de Cloud TPU.
Inicia una VM de Compute Engine y Cloud TPU con el comando gcloud. El comando que uses depende de si usas una VM de TPU o un nodo TPU. Para obtener más información sobre la arquitectura de las dos VM, consulta Arquitectura del sistema. Para obtener más información sobre el comando de gcloud, consulta la Referencia de gcloud.
VM de TPU
```
$ gcloud compute tpus tpu-vm create bert-tutorial \
--zone=us-central1-b \
--accelerator-type=v3-8 \
--version=tpu-vm-tf-2.16.1-se
```
Descripciones de las marcas de comandos

zone

La zona en la que planeas crear tu Cloud TPU.

accelerator-type

El tipo de acelerador especifica la versión y el tamaño de la Cloud TPU que quieres crear. Si quieres obtener más información sobre los tipos de aceleradores compatibles con cada versión de TPU, consulta Versiones de TPU.

version

La versión de software de Cloud TPU.
Nodo TPU
```
$ gcloud compute tpus execution-groups create \
  --name=bert-tutorial \
  --zone=us-central1-b \
  --tf-version=2.12.0 \
  --machine-type=n1-standard-1 \
  --accelerator-type=v3-8 
```
Descripciones de las marcas de comandos

name

Es el nombre de la Cloud TPU que se creará.

zone

La zona en la que planeas crear tu Cloud TPU.

tf-version

La versión ctpu de TensorFlow se instala en la VM.

machine-type

El tipo de máquina de la VM de Compute Engine que se creará.

accelerator type

El tipo de Cloud TPU que se creará.
Nota: Si tienes más de un proyecto, debes especificar el ID del proyecto con la marca --project.
Si no accediste de forma automática a la instancia de Compute Engine, ejecuta el siguiente comando de ssh para acceder. Cuando accedas a la VM, el indicador de shell cambiará de username@projectname a username@vm-name:
VM de TPU
```
gcloud compute tpus tpu-vm ssh bert-tutorial --zone=us-central1-b
```
Nodo TPU
```
gcloud compute ssh bert-tutorial --zone=us-central1-b
```
Mientras sigues estas instrucciones, ejecuta cada comando que empiece con (vm)$ en la ventana de sesión de tu VM.
Crea una variable de entorno para el nombre de la TPU.
VM de TPU
```
(vm)$ export TPU_NAME=local
```
Nodo TPU
```
(vm)$ export TPU_NAME=bert-tutorial
```

Prepara el conjunto de datos

Define el bucket de almacenamiento necesario para almacenar el modelo y el conjunto de datos:
```
(vm)$ export STORAGE_BUCKET=gs://bucket-name
```

Copia el punto de control y los archivos de vocabulario previamente entrenados en tu bucket de almacenamiento:

  (vm)$ curl https://storage.googleapis.com/tf_model_garden/nlp/bert/v3/uncased_L-12_H-768_A-12.tar.gz -o uncased_L-12_H-768_A-12.tar.gz
  (vm)$ mkdir -p uncased_L-12_H-768_A-12
  (vm)$ tar -xvf uncased_L-12_H-768_A-12.tar.gz
  (vm)$ gsutil -m cp -R uncased_L-12_H-768_A-12 ${STORAGE_BUCKET}

Entrenar el modelo

Define varios valores de parámetros que son necesarios cuando entrenas y evalúas el modelo:

  (vm)$ export INIT_CHECKPOINT=${STORAGE_BUCKET}/uncased_L-12_H-768_A-12/bert_model.ckpt
  (vm)$ export TFDS_DIR=${STORAGE_BUCKET}/tfds
  (vm)$ export VOCAB_FILE=${STORAGE_BUCKET}/uncased_L-12_H-768_A-12/vocab.txt
  (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/bert-output
  (vm)$ export TASK=mnli

Instala los requisitos de TensorFlow.

El comando que uses depende de si usas una VM de TPU o un nodo TPU.

VM de TPU

(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt

Nodo TPU

(vm)$ pip3 install --user -r /usr/share/models/official/requirements.txt
(vm)$ pip3 install tensorflow-datasets==4.6.0

Configura la variable de entorno PYTHONPATH.

VM de TPU

(vm)$ export PYTHONPATH=/usr/share/tpu/models

Nodo TPU

(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"

Ve al directorio en el que se almacena el modelo:
VM de TPU
```
(vm)$ cd /usr/share/tpu/models
```
Nodo TPU
```
(vm)$ cd /usr/share/models
```

Ejecuta la secuencia de comandos de entrenamiento:

(vm)$ python3 official/nlp/train.py \
  --tpu=${TPU_NAME} \
  --experiment=bert/sentence_prediction_text \
  --mode=train_and_eval \
  --model_dir=${MODEL_DIR} \
  --config_file=official/nlp/configs/experiments/glue_mnli_text.yaml \
  --params_override="runtime.distribution_strategy=tpu, task.init_checkpoint=${INIT_CHECKPOINT}, task.train_data.tfds_data_dir=${TFDS_DIR}, task.train_data.vocab_file=${VOCAB_FILE}, task.validation_data.tfds_data_dir=${TFDS_DIR}, task.validation_data.vocab_file=${VOCAB_FILE}, trainer.train_steps=2000"

Descripciones de las marcas de comandos

tpu: El nombre de Cloud TPU que se usará para el entrenamiento.
mode: Es train, eval, train_and_eval o predict.
model_dir: La ruta de Cloud Storage en la que se almacenan los puntos de control y los resúmenes durante el entrenamiento de modelos. Puedes reutilizar una carpeta existente para cargar puntos de control generados con anterioridad y almacenar puntos de control adicionales siempre que los puntos de control anteriores se hayan creado mediante un Cloud TPU del mismo tamaño y versión de TensorFlow.

La secuencia de comandos se entrena para 2,000 pasos y, luego, ejecuta 307 pasos de evaluación. En una TPU v3-8, después de unos 5 minutos, la secuencia de comandos de entrenamiento debería completarse y mostrar resultados similares a este:

I0719 00:47:52.683979 140297079573568 controller.py:457] train | step:   2000 | steps/sec:   26.3 | output:
{'cls_accuracy': 0.7249375,
 'learning_rate': 1.4670059e-05,
 'training_loss': 0.6740678}
train | step:   2000 | steps/sec:   26.3 | output:
{'cls_accuracy': 0.7249375,
 'learning_rate': 1.4670059e-05,
 'training_loss': 0.6740678}
I0719 00:47:53.184051 140297079573568 controller.py:277]  eval | step:   2000 | running 307 steps of evaluation...
eval | step:   2000 | running 307 steps of evaluation...

Limpia

Desconéctate de la instancia de Compute Engine, si aún no lo hiciste:
```
(vm)$ exit
```
El mensaje ahora debería mostrar username@projectname, que indica que estás en Cloud Shell.
Borra tus recursos de Cloud TPU y Compute Engine. El comando que uses para borrar tus recursos depende de si usas VM o nodos TPU. Para obtener más información, consulta Arquitectura del sistema.
VM de TPU
```
$ gcloud compute tpus tpu-vm delete bert-tutorial \
--zone=us-central1-b
```
Nodo TPU
```
$ gcloud compute tpus execution-groups delete bert-tutorial \
--zone=us-central1-b
```
Ejecuta gcloud compute tpus execution-groups list para verificar que los recursos se hayan borrado. La eliminación puede tardar varios minutos. El resultado del siguiente comando no debe incluir ninguno de los recursos creados en este instructivo:
VM de TPU
```
$ gcloud compute tpus tpu-vm list --zone=us-central1-b
```
Nodo TPU
```
$ gcloud compute tpus execution-groups list --zone=us-central1-b
```
Borra el bucket de Cloud Storage con gsutil como se muestra a continuación. Reemplaza bucket-name por el nombre de tu bucket de Cloud Storage.
```
$ gsutil rm -r gs://bucket-name
```

¿Qué sigue?

Los instructivos de TensorFlow Cloud TPU suelen entrenar el modelo con un conjunto de datos de muestra. Los resultados de este entrenamiento no se pueden usar para inferencias. Si quieres usar un modelo para la inferencia, puedes entrenar los datos en tu propio conjunto de datos o en un conjunto de datos disponible públicamente. Por lo general, los modelos de TensorFlow entrenados con Cloud TPU requieren que los conjuntos de datos estén en formato TFRecord.

Puedes usar la muestra de la herramienta de conversión de conjuntos de datos para convertir un conjunto de datos de clasificación de imágenes al formato TFRecord. Si no usas un modelo de clasificación de imágenes, deberás convertir tu conjunto de datos al formato TFRecord. Para obtener más información, consulta TFRecord y tf.Example.

Ajuste de hiperparámetros

Para mejorar el rendimiento del modelo con tu conjunto de datos, puedes ajustar sus hiperparámetros. Puedes encontrar información sobre los hiperparámetros comunes de todos los modelos compatibles con TPU en GitHub. La información sobre los hiperparámetros específicos del modelo se puede encontrar en el código fuente de cada modelo. Para obtener más información sobre el ajuste de hiperparámetros, consulta Descripción general del ajuste de hiperparámetros y Ajusta hiperparámetros.

Inferencia

Una vez que hayas entrenado tu modelo, puedes usarlo para la inferencia (también llamada predicción). Puedes usar la herramienta de conversión de inferencias de Cloud TPU para preparar y optimizar un modelo de TensorFlow para la inferencia en Cloud TPU v5e. Para obtener más información sobre la inferencia en Cloud TPU v5e, consulta Introducción a la inferencia con Cloud TPU v5e.

Explora las herramientas de TPU en TensorBoard.