En este instructivo, se muestra cómo entrenar DLRM de Facebook Research en Cloud TPU.
Objetivos
- Crea y configura el entorno PyTorch
- Ejecuta el trabajo de entrenamiento con datos falsos
- Entrena en el conjunto de datos de Kaggle de Criteo (opcional)
Costos
En este instructivo, se usan componentes facturables de Google Cloud, que incluyen los siguientes:- Compute Engine
- Cloud TPU
Usa la calculadora de precios para generar una estimación de los costos según el uso previsto. Los usuarios nuevos de Google Cloud pueden ser elegibles para obtener una prueba gratuita.
Antes de comenzar
Antes de comenzar este instructivo, verifica que tu proyecto de Google Cloud esté configurado correctamente.
- Accede a tu Cuenta de Google.
Si todavía no tienes una cuenta, regístrate para obtener una nueva.
-
En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.
En esta explicación, se usan componentes facturables de Google Cloud. Consulta la página de precios de Cloud TPU para calcular los costos. Asegúrate de limpiar los recursos que crees cuando hayas terminado de usarlos para evitar cargos innecesarios.
Configura una instancia de Compute Engine
Abre una ventana de Cloud Shell.
Crea una variable para el ID de tu proyecto.
export PROJECT_ID=project-id
Configura la herramienta de línea de comandos
gcloud
para usar el proyecto en el que deseas crear Cloud TPU.gcloud config set project ${PROJECT_ID}
La primera vez que ejecutes este comando en una VM de Cloud Shell nueva, se mostrará la página
Authorize Cloud Shell
. Haz clic enAuthorize
en la parte inferior de la página para permitir quegcloud
realice llamadas a la API de GCP con tus credenciales.Desde Cloud Shell, inicia el recurso de Compute Engine necesario para este instructivo. Nota: Se recomienda usar un
machine-type
n1-highmem-96 si entrenas en el conjunto de datos de Kaggle de Criteo.gcloud compute instances create dlrm-tutorial \ --zone=us-central1-a \ --machine-type=n1-standard-64 \ --image-family=torch-xla \ --image-project=ml-images \ --boot-disk-size=200GB \ --scopes=https://www.googleapis.com/auth/cloud-platform
Conéctate a la instancia nueva de Compute Engine.
gcloud compute ssh dlrm-tutorial --zone=us-central1-a
Inicia un recurso de Cloud TPU
En la máquina virtual de Compute Engine, inicia un recurso de Cloud TPU con el siguiente comando:
(vm) $ gcloud compute tpus create dlrm-tutorial \ --zone=us-central1-a \ --network=default \ --version=pytorch-1.7 \ --accelerator-type=v3-8
Identifica la dirección IP para el recurso Cloud TPU.
(vm) $ gcloud compute tpus list --zone=us-central1-a
Crea y configura el entorno PyTorch
Inicia un entorno
conda
.(vm) $ conda activate torch-xla-1.7
Configura variables de entorno para el recurso de Cloud TPU.
(vm) $ export TPU_IP_ADDRESS=ip-address
(vm) $ export XRT_TPU_CONFIG="tpu_worker;0;$TPU_IP_ADDRESS:8470"
Ejecuta el trabajo de entrenamiento con datos falsos
Para obtener DLRM compatible con TPU, ejecuta lo siguiente:
(vm) $ git clone --recursive https://github.com/pytorch-tpu/examples.git
Instala las dependencias.
(vm) $ pip install onnx
Ejecuta el modelo con datos aleatorios.
(vm) $ python examples/deps/dlrm/dlrm_tpu_runner.py \ --arch-embedding-size=1000000-1000000-1000000-1000000-1000000-1000000-1000000-1000000 \ --arch-sparse-feature-size=64 \ --arch-mlp-bot=512-512-64 \ --arch-mlp-top=1024-1024-1024-1 \ --arch-interaction-op=dot \ --lr-num-warmup-steps=10 \ --lr-decay-start-step=10 \ --mini-batch-size=2048 \ --num-batches=1000 \ --data-generation='random' \ --numpy-rand-seed=727 \ --print-time \ --print-freq=100 \ --num-indices-per-lookup=100 \ --use-tpu \ --num-indices-per-lookup-fixed \ --tpu-model-parallel-group-len=8 \ --tpu-metrics-debug \ --tpu-cores=8
Entrena en el conjunto de datos de Kaggle de Criteo (opcional)
Estos pasos son opcionales. Solo debes ejecutarlos si deseas entrenar en el conjunto de datos de Criteo Kaggle.
Descarga el conjunto de datos.
Descarga el conjunto de datos de Criteo Kaggle según las instrucciones que se indican aquí. Cuando se complete la descarga, copia el archivo
dac.tar.gz
en un directorio llamado./criteo-kaggle/
. Usa el comandotar -xzvf
para extraer el contenido del archivo tar.gz en el directorio./critero-kaggle
.(vm) $ mkdir criteo-kaggle (vm) $ cd criteo-kaggle (vm) $ # Download dataset from above link here. (vm) $ tar -xzvf dac.tar.gz (vm) $ cd ..
Procesa previamente el conjunto de datos.
Inicia esta secuencia de comandos para procesar previamente el conjunto de datos de Criteo. Esta secuencia de comandos produce un archivo llamado
kaggleAdDisplayChallenge_processed.npz
y tarda más de 3 horas en procesar previamente el conjunto de datos.(vm) $ python examples/deps/dlrm/dlrm_data_pytorch.py \ --data-generation=dataset \ --data-set=kaggle \ --raw-data-file=criteo-kaggle/train.txt \ --mini-batch-size=128 \ --test-mini-batch-size=16384 \ --test-num-workers=4
Verifica si el procesamiento previo se realizó correctamente.
Deberías ver el archivo
kaggleAdDisplayChallenge_processed.npz
en el directoriocriteo-kaggle
.Ejecuta la secuencia de comandos de entrenamiento en el conjunto de datos previamente procesado de Criteo Kaggle.
(vm) $ python examples/deps/dlrm/dlrm_tpu_runner.py \ --arch-sparse-feature-size=16 \ --arch-mlp-bot="13-512-256-64-16" \ --arch-mlp-top="512-256-1" \ --data-generation=dataset \ --data-set=kaggle \ --raw-data-file=criteo-kaggle/train.txt \ --processed-data-file=criteo-kaggle/kaggleAdDisplayChallenge_processed.npz \ --loss-function=bce \ --round-targets=True \ --learning-rate=0.1 \ --mini-batch-size=128 \ --print-freq=1024 \ --print-time \ --test-mini-batch-size=16384 \ --test-num-workers=4 \ --test-freq=101376 \ --use-tpu \ --num-indices-per-lookup=1 \ --num-indices-per-lookup-fixed \ --tpu-model-parallel-group-len 8 \ --tpu-metrics-debug \ --tpu-cores=8
El entrenamiento debe completarse en 2 horas o más con una exactitud del 78.75% o más.
Realice una limpieza
Realiza una limpieza para evitar incurrir en cargos innecesarios en tu cuenta después de usar los recursos que creaste:
Desconéctate de la instancia de Compute Engine, si aún no lo hiciste:
(vm) $ exit
El mensaje ahora debería mostrar
user@projectname
, que indica que estás en Cloud Shell.En Cloud Shell, usa la herramienta de línea de comandos de
gcloud
para borrar la instancia de Compute Engine:$ gcloud compute instances delete dlrm-tutorial --zone=us-central1-a
Use la herramienta de línea de comandos de
gcloud
para borrar el recurso de Cloud TPU.$ gcloud compute tpus delete dlrm-tutorial --zone=us-central1-a
Qué sigue
Prueba los siguientes colaboradores de PyTorch:
- Comienza a usar PyTorch en Cloud TPU
- Entrenamiento de MNIST en TPU
- Entrenamiento de ResNet18 en TPU con el conjunto de datos de Cifar10
- Inferencia con el modelo ResNet50 previamente entrenado
- Transferencia de estilo neuronal rápida
- Capacitación de varios núcleos de AlexCre en Fashion MNIST
- Capacitación de núcleo único de AlexNet en Fashion MNIST