Soluciona problemas de PyTorch: TPU
En esta guía, se proporciona información para solucionar problemas que te ayudará a identificar y resolver problemas que podrías encontrar mientras entrenas modelos de PyTorch en Cloud TPU. Para obtener una guía más general a fin de comenzar a usar Cloud TPU, consulta la guía de inicio rápido de PyTorch.
Soluciona problemas de rendimiento lento de entrenamiento
Si tu modelo se entrena lentamente, genera y revisa un informe de métricas.
Para analizar el informe de métricas de forma automática y proporcionar un resumen, ejecuta tu carga de trabajo con PT_XLA_DEBUG=1.
Para obtener más información sobre los problemas que podrían hacer que tu modelo se entrene lentamente, consulta Advertencias de rendimiento conocidas.
Generación de perfiles de rendimiento
Para generar un perfil de la carga de trabajo en profundidad a fin de descubrir cuellos de botella, puedes usar los siguientes recursos:
- Creación de perfiles de rendimiento de PyTorch/XLA
- Creación de perfiles de Colab de PyTorch/XLA
- Ejemplo de una secuencia de comandos de entrenamiento de MNIST con generación de perfiles
Más herramientas de depuración
Puedes especificar variables de entorno para controlar el comportamiento de la pila de software de PyTorch/XLA.
Si el proceso de PyTorch deja de responder, informa un problema en GitHub y, además, incluye seguimientos de pila.
Se proporciona una utilidad debug_run.py en secuencia de comandos/debug_run.py que se puede usar a fin de crear un archivo tar.gz
con la información requerida para depurar las ejecuciones de PyTorch/XLA.
Administra tensores XLA
Quirks de tensor XLA describe lo que debes y no debes hacer cuando trabajas con tensores de XLA y pesos compartidos.