BERT Función de ajuste con Cloud TPU: Tareas de clasificación de oraciones y pares de oraciones (TF 2.x)

En este instructivo se muestra cómo entrenar el modelo Representaciones de codificador bidireccional de transformadores (BERT) en Cloud TPU.

BERT es un método para realizar un entrenamiento previo de representaciones lingüísticas. El entrenamiento previo se refiere a la manera en que BERT se entrena primero en una gran fuente de texto, como Wikipedia. A continuación, puedes aplicar los resultados del entrenamiento a otras tareas de procesamiento de lenguaje natural (PLN), como respuesta a preguntas y análisis de opiniones. Con BERT y Cloud TPU, puedes entrenar una variedad de modelos de PLN en alrededor de 30 minutos.

Para obtener más información sobre BERT, consulta los siguientes recursos:

Objetivos

  • Crear un bucket de Cloud Storage para almacenar el resultado de tu modelo y tu conjunto de datos
  • Ejecutar el trabajo de entrenamiento
  • Verificar los resultados de salida

Costos

En este instructivo, se usan componentes facturables de Google Cloud, que incluyen los siguientes:

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

Usa la calculadora de precios para generar una estimación de los costos según el uso previsto. Los usuarios nuevos de Google Cloud pueden ser elegibles para obtener una prueba gratuita.

Antes de comenzar

En esta sección, se proporciona información sobre cómo configurar el bucket de Cloud Storage y una VM de Compute Engine.

  1. Abre una ventana de Cloud Shell.

    Abrir Cloud Shell

  2. Crea una variable para el ID de tu proyecto.

    export PROJECT_ID=project-id
    
  3. Configura la herramienta de línea de comandos gcloud para usar el proyecto en el que deseas crear Cloud TPU.

    gcloud config set project ${PROJECT_ID}
    
  4. Crea una cuenta de servicio para el proyecto de Cloud TPU.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    El comando muestra una cuenta de servicio de Cloud TPU con el siguiente formato:

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    
  5. Crea un bucket de Cloud Storage con el siguiente comando:

    gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 -b on gs://bucket-name
    

    Este bucket de Cloud Storage almacena los datos que usas para entrenar tu modelo y los resultados del entrenamiento. El comando gcloud compute tpus execution-groups que se usa en este instructivo configura los permisos predeterminados para la cuenta de servicio de Cloud TPU que configuraste en el paso anterior. Si quieres contar con permisos más detallados, revisa los permisos de nivel de acceso.

    La ubicación del bucket debe estar en la misma región que tu Compute Engine (VM) y tu nodo de Cloud TPU.

  6. Inicia una VM de Compute Engine y Cloud TPU con el comando gcloud. El comando que uses depende de si usas una VM de TPU o un nodo TPU. Para obtener más información sobre la arquitectura de VM, consulta Arquitectura del sistema. Para obtener más información sobre el comando gcloud, consulta la referencia de gcloud.

    VM TPU

    $ gcloud alpha compute tpus tpu-vm create bert-tutorial \
    --zone=europe-west4-a \
    --accelerator-type=v3-8 \
    --version=v2-alpha
    

    Descripciones de las marcas de comandos

    zone
    La zona en la que planeas crear tu Cloud TPU.
    accelerator-type
    El tipo de Cloud TPU que se creará.
    version
    La versión del entorno de ejecución de Cloud TPU.

    Nodo TPU

    $ gcloud compute tpus execution-groups create \
    --name=bert-tutorial \
    --zone=europe-west4-a \
    --tf-version=2.5.0 \
    --machine-type=n1-standard-1 \
    --accelerator-type=v3-8
    

    Descripciones de las marcas de comandos

    name
    El nombre de la Cloud TPU que se creará.
    zone
    La zona en la que planeas crear tu Cloud TPU.
    tf-version
    La versión de ctpu de TensorFlow se instala en la VM.
    machine-type
    El tipo de máquina de la VM de Compute Engine que se creará.
    accelerator type
    El tipo de Cloud TPU que se creará.
  7. Si no accediste de forma automática a la instancia de Compute Engine, accede mediante el siguiente comando ssh. Cuando accedes a la VM, tu indicador de shell cambia de username@projectname a username@vm-name:

    VM de TPU

    gcloud alpha compute tpus tpu-vm ssh bert-tutorial --zone=europe-west4-a
    

    Nodo TPU

    gcloud compute ssh bert-tutorial --zone=europe-west4-a
    

    Mientras sigues estas instrucciones, ejecuta cada comando que empiece con (vm)$ en la ventana de sesión de tu VM.

  8. Crea una variable de entorno para el nombre de la TPU.

    VM de TPU

    (vm)$ export TPU_NAME=local
    

    Nodo TPU

    (vm)$ export TPU_NAME=bert-tutorial
    

Prepara el conjunto de datos

  1. Instalar los requisitos de TensorFlow.

    El comando que uses depende de si usas una VM de TPU o un nodo TPU.

    VM de TPU

    (vm)$ git clone https://github.com/tensorflow/models.git
    (vm)$ pip3 install -r models/official/requirements.txt
    

    Nodo TPU

    (vm)$ sudo pip3 install -r /usr/share/models/official/requirements.txt
    
  2. Opcional: descarga download_glue_data.py

    En este instructivo se usan las comparativas de la Evaluación de la comprensión general del lenguaje (GLUE) para evaluar y analizar el rendimiento del modelo. Los datos de GLUE se proporcionan para este instructivo en gs://cloud-tpu-checkpoints/bert/classification.

    Si deseas trabajar con datos de GLUE sin procesar y crear TFRecords, sigue las instrucciones de procesamiento del conjunto de datos en GitHub.

Define los valores de los parámetros

  1. Define varios valores de parámetros que se requieren cuando entrenas y evalúas tu modelo:

    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    
    (vm)$ export BERT_BASE_DIR=gs://cloud-tpu-checkpoints/bert/keras_bert/uncased_L-24_H-1024_A-16
    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/bert-output
    (vm)$ export GLUE_DIR=gs://cloud-tpu-checkpoints/bert/classification
    (vm)$ export TASK=mnli
    
  2. Configura la variable de entorno PYTHONPATH.

    VM de TPU

    (vm)$ export PYTHONPATH="${PWD}/models:${PYTHONPATH}"
    

    Nodo TPU

    (vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"
    
  3. Ve al directorio en el que se almacena el modelo:

    VM de TPU

    (vm)$ cd ~/models/official/nlp/bert
    

    Nodo TPU

    (vm)$ cd /usr/share/models/official/nlp/bert
    

Entrena el modelo

Desde tu VM de Compute Engine, ejecuta el siguiente comando.

(vm)$ python3 run_classifier.py \
  --mode='train_and_eval' \
  --input_meta_data_path=${GLUE_DIR}/${TASK}_meta_data \
  --train_data_path=${GLUE_DIR}/${TASK}_train.tf_record \
  --eval_data_path=${GLUE_DIR}/${TASK}_eval.tf_record \
  --bert_config_file=${BERT_BASE_DIR}/bert_config.json \
  --init_checkpoint=${BERT_BASE_DIR}/bert_model.ckpt \
  --train_batch_size=32 \
  --eval_batch_size=32 \
  --learning_rate=2e-5 \
  --num_train_epochs=1 \
  --model_dir=${MODEL_DIR} \
  --distribution_strategy=tpu \
  --tpu=${TPU_NAME} \
  --steps_per_loop=500

Descripciones de las marcas de comandos

mode
Uno de train, eval, train_and_eval, o predict.
input_meta_data_path
La ruta a un archivo que contiene metadatos sobre el conjunto de datos que se usará para el entrenamiento y la evaluación.
train_data_path
La ruta de Cloud Storage para la entrada de entrenamiento. En este ejemplo, se establece como el conjunto de datos fake_imagenet.
eval_data_path
La ruta de Cloud Storage para la entrada de evaluación. En este ejemplo, se establece como el conjunto de datos fake_imagenet.
bert_config_file
El archivo de configuración de BERT.
init_checkpoint
La ruta al archivo json que contiene el punto de control inicial del modelo BERT entrenado previamente.
train_batch_size
El tamaño del lote de entrenamiento.
eval_batch_size
El tamaño del lote de evaluación.
learning_rate
La tasa de aprendizaje.
num_train_epochs
La cantidad de ciclos de entrenamiento para entrenar el modelo.
model_dir
La ruta de Cloud Storage donde se almacenan los puntos de control y los resúmenes durante el entrenamiento del modelo. Puedes reutilizar una carpeta existente para cargar puntos de control generados previamente y almacenar puntos de control adicionales siempre que los anteriores se hayan creado con una Cloud TPU del mismo tamaño y versión de TensorFlow.
distribution_strategy
Para entrenar el modelo ResNet en una TPU, configura distribution_strategy en tpu.
tpu
El nombre de la Cloud TPU que se usará para el entrenamiento.
steps_per_loop
La cantidad de pasos de entrenamiento que se deben ejecutar antes de guardar el estado en la CPU. Un paso de entrenamiento es el procesamiento de un lote de ejemplos. Esto incluye una propagación hacia delante y de retroceso.

El entrenamiento tarda alrededor de 30 minutos en una TPU v3-8. Una vez completada, la secuencia de comandos de entrenamiento debe mostrar resultados como los siguientes:

12271/12271 [==============================]
  - 756s 62ms/step
  - loss: 0.4864
  - accuracy: 0.8055
  - val_loss: 0.3832
  - val_accuracy: 0.8546

Para aumentar la exactitud, configura --num_tain_epochs=3.

Limpia

  1. Desconéctate de la instancia de Compute Engine, si aún no lo hiciste:

    (vm)$ exit
    

    El mensaje ahora debería mostrar username@projectname, que indica que estás en Cloud Shell.

  2. Borra los recursos de Cloud TPU y Compute Engine. El comando que uses para borrar tus recursos depende de si usas VM de TPU o nodos TPU. Para obtener más información, consulta Arquitectura del sistema.

    VM TPU

    $ gcloud alpha compute tpus tpu-vm delete bert-tutorial \
    --zone=europe-west4-a
    

    Nodo TPU

    $ gcloud compute tpus execution-groups delete bert-tutorial \
    --zone=europe-west4-a
    
  3. Verifica que se hayan borrado los recursos con la ejecución de gcloud compute tpus execution-groups list. La eliminación puede tomar varios minutos. Una respuesta como la que se muestra a continuación indica que tus instancias se borraron de forma correcta:

    $ gcloud compute tpus execution-groups list \
      --zone=europe-west4-a
    
     Listed 0 items.
    
  4. Borra el depósito de Cloud Storage con gsutil como se muestra a continuación. Reemplaza bucket-name por el nombre del depósito de Cloud Storage.

    $ gsutil rm -r gs://bucket-name
    

¿Qué sigue?

En este instructivo, entrenaste el modelo BERT mediante un conjunto de datos de muestra. Los resultados de esta capacitación (en la mayoría de los casos) no se pueden usar para la inferencia. Para usar un modelo de inferencia, puedes entrenar los datos en un conjunto de datos disponible públicamente o en tu propio conjunto de datos. Los modelos entrenados en Cloud TPU requieren que los conjuntos de datos tengan el formato TFRecord.

Puedes usar la muestra de la herramienta de conversión de conjuntos de datos para convertir un conjunto de datos de clasificación de imágenes en formato TFRecord. Si no usas un modelo de clasificación de imágenes, deberás convertir tú mismo el conjunto de datos en formato TFRecord. Para obtener más información, consulta TFRecord y tf.Example.

Ajuste de hiperparámetros

Para mejorar el rendimiento del modelo con tu conjunto de datos, puedes ajustar los hiperparámetros del modelo. Puedes encontrar información sobre hiperparámetros comunes para todos los modelos compatibles con TPU en GitHub. La información sobre los hiperparámetros específicos del modelo se puede encontrar en el código fuente para cada modelo. Para obtener más información sobre el ajuste de hiperparámetros, consulta Descripción general del ajuste de hiperparámetros, Usa el servicio de ajuste de hiperparámetros y Ajusta los hiperparámetros.

Inferencia

Una vez que entrenaste tu modelo, puedes usarlo para la inferencia (también llamada predicción). AI Platform es una solución basada en la nube que sirve para desarrollar, entrenar e implementar modelos de aprendizaje automático. Una vez que se implementa un modelo, puedes usar el servicio de AI Platform Prediction.