Solucionar problemas de PyTorch - TPU
En esta guía se proporciona información para solucionar problemas que pueden surgir al entrenar modelos de PyTorch en TPUs de Cloud. Para obtener una guía más general sobre cómo empezar a usar las TPU de Cloud, consulta la guía de inicio rápido de PyTorch.
Solucionar problemas de rendimiento lento del entrenamiento
Si tu modelo se entrena lentamente, genera y revisa un informe de métricas.
Para analizar automáticamente el informe de métricas y proporcionar un resumen, ejecuta tu carga de trabajo con PT_XLA_DEBUG=1.
Para obtener más información sobre los problemas que pueden provocar que tu modelo se entrene lentamente, consulta Advertencias sobre el rendimiento.
Elaboración de perfiles de rendimiento
Para analizar tu carga de trabajo en profundidad y descubrir cuellos de botella, consulta estos recursos:
- Creación de perfiles de rendimiento de PyTorch/XLA
- Secuencia de comandos de entrenamiento de MNIST de ejemplo con creación de perfiles
Más herramientas de depuración
Puedes especificar variables de entorno para controlar el comportamiento de la pila de software de PyTorch/XLA.
Si detectas un error inesperado y necesitas ayuda, registra una incidencia en GitHub.
Gestionar tensores de XLA
En Particularidades de los tensores de XLA se describe lo que debes y no debes hacer al trabajar con tensores de XLA y pesos compartidos.