Soluciona problemas de PyTorch - TPU

En esta guía, se proporciona información para solucionar problemas que te ayudarán a identificar y resolver los problemas que puedes encontrar cuando entrenas modelos de PyTorch en Cloud TPU. Si deseas obtener una guía más general para comenzar a usar Cloud TPU, consulta la guía de inicio rápido de PyTorch.

Cómo solucionar problemas de rendimiento lento de entrenamiento

Lo primero que debes hacer cuando el entrenamiento de tu modelo es lento es generar y revisar un informe de métricas.

Para analizar el informe de métricas de forma automática y proporcionar un resumen, simplemente ejecuta la carga de trabajo con PT_XLA_DEBUG=1.

Advertencias de rendimiento conocidas: describe los problemas conocidos que podrían contribuir al entrenamiento de tu modelo con lentitud.

Generación de perfiles de rendimiento

Para perfilar tu carga de trabajo en profundidad a fin de descubrir cuellos de botella, puedes usar los siguientes recursos:

Más herramientas de depuración

Puedes especificar variables de entorno para controlar el comportamiento de la pila de software de PyTorch/XLA.

En caso de que el proceso de PyTorch esté suspendido, es útil recuperar los seguimientos de pila y proporcionarlos junto con el problema de GitHub.

Se proporciona una utilidad_debug_run.py en script/debug_run.py que se puede usar para crear un archivo tar.gz con la información necesaria para depurar ejecuciones de PyTorch/XLA.

Administrar tensores XLA

Existen algunas formas particulares de controlar los tensores XLA y las ponderaciones compartidas en PyTorch/XLA. Cuestionarios de tensor de XLA describe lo que debes y no debes hacer cuando trabajas con tensores de XLA y pesos compartidos.