En este instructivo, se muestra cómo entrenar modelos de clasificación de DLRM y DCN v2 que se pueden usar para tareas como la predicción de la tasa de clics (CTR). Consulta la nota en Configuración para ejecutar el modelo DLRM o DCN si quieres ver cómo configurar los parámetros para entrenar un modelo de clasificación DLRM o DCN v2.
Las entradas del modelo son atributos numéricos y categóricos, y el resultado es un escalar (por ejemplo, la probabilidad de clic). El modelo se puede entrenar y evaluar en Cloud TPU. Los modelos de clasificación profunda requieren mucha memoria (para las incorporaciones de tablas y búsquedas) y requieren un procesamiento intensivo para las redes profundas (MLP). Las TPU están diseñadas para ambas.
El modelo usa una capa TPUEmbedding para atributos categóricos. La incorporación de TPU admite tablas de incorporación grandes con búsqueda rápida. El tamaño de las tablas de incorporación se escala de forma lineal con el tamaño de un pod de TPU. Se pueden usar tablas de incorporación de hasta 90 GB para TPU v3-8, 5.6 TB en un pod v3-512 y 22.4 TB en un pod de TPU v3-2048.
El código del modelo se encuentra en la biblioteca de recomendadores de TensorFlow, mientras que la canalización de entrada, la configuración y el bucle de entrenamiento se describen en TensorFlow Model Garden.
Objetivos
- Establece el entorno de entrenamiento
- Ejecuta el trabajo de entrenamiento con datos sintéticos
- Verificar los resultados de salida
Costos
En este documento, usarás los siguientes componentes facturables de Google Cloud:
- Compute Engine
- Cloud TPU
- Cloud Storage
Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios.
Antes de comenzar
Antes de comenzar este instructivo, verifica que tu proyecto de Google Cloud esté configurado correctamente.
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
En esta explicación, se usan componentes facturables de Google Cloud. Consulta la página de precios de Cloud TPU para calcular los costos. Asegúrate de limpiar los recursos que crees cuando hayas terminado de usarlos para evitar cargos innecesarios.
Configura tus recursos
En esta sección, se proporciona información sobre cómo configurar los recursos de bucket, VM y Cloud TPU de Cloud Storage que se usan en este instructivo.
Abre una ventana de Cloud Shell.
Crea una variable para el ID de tu proyecto.
export PROJECT_ID=project-id
Configura Google Cloud CLI para usar el proyecto en el que deseas crear Cloud TPU.
gcloud config set project ${PROJECT_ID}
La primera vez que ejecutes este comando en una VM de Cloud Shell nueva, se mostrará la página
Authorize Cloud Shell
. Haz clic enAuthorize
en la parte inferior de la página para permitir quegcloud
realice llamadas a la API con tus credenciales.Crea una cuenta de servicio para el proyecto de Cloud TPU.
gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
El comando muestra una cuenta de servicio de Cloud TPU con el siguiente formato:
service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
Crea un bucket de Cloud Storage con el siguiente comando, en el que la opción
-l
especifica la región en la que se debe crear el bucket. Consulta los tipos y zonas para obtener más detalles sobre las zonas y regiones:gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 gs://bucket-name
Este bucket de Cloud Storage almacena los datos que usas para entrenar tu modelo y los resultados del entrenamiento. Con la herramienta
gcloud compute tpus execution-groups
que se usa en este instructivo, se configuran los permisos predeterminados para la cuenta de servicio de Cloud TPU que configuraste en el paso anterior. Si quieres contar con permisos más detallados, revisa los permisos de nivel de acceso.La ubicación del bucket debe estar en la misma región que tu Compute Engine (VM) y tu nodo de Cloud TPU.
Inicia una VM de Compute Engine y Cloud TPU con el comando
gcloud
. El comando que uses depende de si usas una VM de TPU o un nodo TPU. Para obtener más información sobre la arquitectura de las dos VM, consulta Arquitectura del sistema. Para obtener más información sobre el comando degcloud
, consulta la Referencia de gcloud.VM de TPU
$ gcloud compute tpus tpu-vm create dlrm-dcn-tutorial \ --zone=europe-west4-a \ --accelerator-type=v3-8 \ --version=tpu-vm-tf-2.16.1-se
Descripciones de las marcas de comandos
zone
- La zona en la que planeas crear tu Cloud TPU.
accelerator-type
- El tipo de acelerador especifica la versión y el tamaño de la Cloud TPU que quieres crear. Si quieres obtener más información sobre los tipos de aceleradores compatibles con cada versión de TPU, consulta Versiones de TPU.
version
- La versión de software de Cloud TPU.
Nodo TPU
$ gcloud compute tpus execution-groups create \ --name=dlrm-dcn-tutorial \ --zone=europe-west4-a \ --disk-size=300 \ --machine-type=n1-standard-8 \ --tf-version=2.12.0
Descripciones de las marcas de comandos
vm-only
- Crea solo una VM. De forma predeterminada, el comando
gcloud compute tpus execution-groups
crea una VM y una Cloud TPU. name
- Es el nombre de la Cloud TPU que se creará.
zone
- La zona en la que planeas crear tu Cloud TPU.
disk-size
- El tamaño del disco duro en GB de la VM que creó el comando
gcloud compute tpus execution-groups
. machine-type
- El tipo de máquina de la VM de Compute Engine que se creará.
tf-version
- La versión de
ctpu
de TensorFlow se instala en la VM.
Si no accediste de forma automática a la instancia de Compute Engine, ejecuta el siguiente comando de
ssh
para acceder. Cuando accedas a la VM, el indicador de shell cambiará deusername@projectname
ausername@vm-name
:VM de TPU
gcloud compute tpus tpu-vm ssh dlrm-dcn-tutorial --zone=europe-west4-a
Nodo TPU
gcloud compute ssh dlrm-dcn-tutorial --zone=europe-west4-a
Mientras sigues estas instrucciones, ejecuta cada comando que empiece con
(vm)$
en la ventana de sesión de tu VM.
Configura las variables de bucket de Cloud Storage
Configura las variables de entorno siguientes y reemplaza bucket-name por el nombre del depósito de Cloud Storage:
(vm)$ export STORAGE_BUCKET=gs://bucket-name (vm)$ export PYTHONPATH="/usr/share/tpu/models/:${PYTHONPATH}" (vm)$ export EXPERIMENT_NAME=dlrm-exp
Crea una variable de entorno para el nombre de la TPU.
VM de TPU
(vm)$ export TPU_NAME=local
Nodo TPU
(vm)$ export TPU_NAME=dlrm-dcn-tutorial
La aplicación de entrenamiento espera que tus datos de entrenamiento sean accesibles en Cloud Storage. La aplicación de entrenamiento también usa tu bucket de Cloud Storage para almacenar puntos de control durante el entrenamiento.
Configuración para ejecutar el modelo DLRM o DCN con datos sintéticos
El modelo se puede entrenar con diversos conjuntos de datos. Dos de los más usados son Criteo Terabyte y Criteo Kaggle.
En este instructivo, se entrena con datos sintéticos mediante la configuración de la marca use_synthetic_data=True
.
El conjunto de datos sintético solo es útil para comprender cómo usar una Cloud TPU y validar el rendimiento de extremo a extremo. Los números de exactitud y el modelo guardado no serán significativos.
Visita los sitios web de Criteo Terabyte y Criteo Kagle para obtener información sobre cómo descargar y preprocesar estos conjuntos de datos.
Instala los paquetes obligatorios.
(vm)$ pip3 install tensorflow-recommenders (vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt
Cambia al directorio de la secuencia de comandos.
VM de TPU
(vm)$ cd /usr/share/tpu/models/official/recommendation/ranking
Nodo TPU
(vm)$ cd /usr/share/models/official/recommendation/ranking
Ejecuta la secuencia de comandos de entrenamiento. Esto usa un conjunto de datos falso similar a Criteo para entrenar el modelo DLRM. El entrenamiento tarda aproximadamente 20 minutos.
export EMBEDDING_DIM=32 python3 train.py --mode=train_and_eval \ --model_dir=${STORAGE_BUCKET}/model_dirs/${EXPERIMENT_NAME} --params_override=" runtime: distribution_strategy: 'tpu' task: use_synthetic_data: true train_data: input_path: '${DATA_DIR}/train/*' global_batch_size: 16384 validation_data: input_path: '${DATA_DIR}/eval/*' global_batch_size: 16384 model: num_dense_features: 13 bottom_mlp: [512,256,${EMBEDDING_DIM}] embedding_dim: ${EMBEDDING_DIM} top_mlp: [1024,1024,512,256,1] interaction: 'dot' vocab_sizes: [39884406, 39043, 17289, 7420, 20263, 3, 7120, 1543, 63, 38532951, 2953546, 403346, 10, 2208, 11938, 155, 4, 976, 14, 39979771, 25641295, 39664984, 585935, 12972, 108, 36] trainer: use_orbit: false validation_interval: 1000 checkpoint_interval: 1000 validation_steps: 500 train_steps: 1000 steps_per_loop: 1000 "
Este entrenamiento se ejecuta durante aproximadamente 10 minutos en una TPU v3-8. Cuando se complete, verás mensajes similares al siguiente:
I0621 21:32:58.519792 139675269142336 tpu_embedding_v2_utils.py:907] Done with log of TPUEmbeddingConfiguration. I0621 21:32:58.540874 139675269142336 tpu_embedding_v2.py:389] Done initializing TPU Embedding engine. 1000/1000 [==============================] - 335s 335ms/step - auc: 0.7360 - accuracy: 0.6709 - prediction_mean: 0.4984 - label_mean: 0.4976 - loss: 0.0734 - regularization_loss: 0.0000e+00 - total_loss: 0.0734 - val_auc: 0.7403 - val_accuracy: 0.6745 - val_prediction_mean: 0.5065 - val_label_mean: 0.4976 - val_loss: 0.0749 - val_regularization_loss: 0.0000e+00 - val_total_loss: 0.0749 Model: "ranking" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= tpu_embedding (TPUEmbedding) multiple 1 _________________________________________________________________ mlp (MLP) multiple 154944 _________________________________________________________________ mlp_1 (MLP) multiple 2131969 _________________________________________________________________ dot_interaction (DotInteract multiple 0 _________________________________________________________________ ranking_1 (Ranking) multiple 0 ================================================================= Total params: 2,286,914 Trainable params: 2,286,914 Non-trainable params: 0 _________________________________________________________________ I0621 21:43:54.977140 139675269142336 train.py:177] Train history: {'auc': [0.7359596490859985], 'accuracy': [0.67094486951828], 'prediction_mean': [0.4983849823474884], 'label_mean': [0.4975697994232178], 'loss': [0.07338511198759079], 'regularization_loss': [0], 'total_loss': [0.07338511198759079], 'val_auc': [0.7402724623680115], 'val_accuracy': [0.6744520664215088], 'val_prediction_mean': [0.5064718723297119], 'val_label_mean': [0.4975748658180237], 'val_loss': [0.07486172765493393], 'val_regularization_loss': [0], 'val_total_loss': [0.07486172765493393]}
Limpia
Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.
Desconéctate de la instancia de Compute Engine, si aún no lo hiciste:
(vm)$ exit
El mensaje ahora debería mostrar
username@projectname
, que indica que estás en Cloud Shell.Borra tus recursos de Cloud TPU y Compute Engine. El comando que uses para borrar tus recursos depende de si usas VM o nodos TPU. Para obtener más información, consulta Arquitectura del sistema.
VM de TPU
$ gcloud compute tpus tpu-vm delete dlrm-dcn-tutorial \ --zone=europe-west4-a
Nodo TPU
$ gcloud compute tpus execution-groups delete dlrm-dcn-tutorial \ --zone=europe-west4-a
Ejecuta
gcloud compute tpus execution-groups list
para verificar que los recursos se hayan borrado. La eliminación puede tardar varios minutos. El resultado del siguiente comando no debe incluir ninguno de los recursos creados en este instructivo:VM de TPU
$ gcloud compute tpus tpu-vm list --zone=europe-west4-a
Nodo TPU
$ gcloud compute tpus execution-groups list --zone=europe-west4-a
Borra el bucket de Cloud Storage con
gsutil
. Reemplaza bucket-name por el nombre de tu bucket de Cloud Storage.$ gsutil rm -r gs://bucket-name
¿Qué sigue?
Los instructivos de TensorFlow Cloud TPU suelen entrenar el modelo con un conjunto de datos de muestra. Los resultados de este entrenamiento no se pueden usar para inferencias. Si quieres usar un modelo para la inferencia, puedes entrenar los datos en tu propio conjunto de datos o en un conjunto de datos disponible públicamente. Por lo general, los modelos de TensorFlow entrenados con Cloud TPU requieren que los conjuntos de datos estén en formato TFRecord.
Puedes usar la muestra de la herramienta de conversión de conjuntos de datos para convertir un conjunto de datos de clasificación de imágenes al formato TFRecord. Si no usas un modelo de clasificación de imágenes, deberás convertir tu conjunto de datos al formato TFRecord. Para obtener más información, consulta TFRecord y tf.Example.
Ajuste de hiperparámetros
Para mejorar el rendimiento del modelo con tu conjunto de datos, puedes ajustar sus hiperparámetros. Puedes encontrar información sobre los hiperparámetros comunes de todos los modelos compatibles con TPU en GitHub. La información sobre los hiperparámetros específicos del modelo se puede encontrar en el código fuente de cada modelo. Para obtener más información sobre el ajuste de hiperparámetros, consulta Descripción general del ajuste de hiperparámetros y Ajusta hiperparámetros.
Inferencia
Una vez que hayas entrenado tu modelo, puedes usarlo para la inferencia (también llamada predicción). Puedes usar la herramienta de conversión de inferencias de Cloud TPU para preparar y optimizar un modelo de TensorFlow para la inferencia en Cloud TPU v5e. Para obtener más información sobre la inferencia en Cloud TPU v5e, consulta Introducción a la inferencia con Cloud TPU v5e.