Solucionar problemas de PyTorch - TPU

En esta guía se proporciona información para solucionar problemas que pueden surgir al entrenar modelos de PyTorch en TPUs de Cloud. Para obtener una guía más general sobre cómo empezar a usar las TPU de Cloud, consulta la guía de inicio rápido de PyTorch.

Solucionar problemas de rendimiento lento del entrenamiento

Si tu modelo se entrena lentamente, genera y revisa un informe de métricas.

Para analizar automáticamente el informe de métricas y proporcionar un resumen, ejecuta tu carga de trabajo con PT_XLA_DEBUG=1.

Para obtener más información sobre los problemas que pueden provocar que tu modelo se entrene lentamente, consulta Advertencias sobre el rendimiento.

Elaboración de perfiles de rendimiento

Para analizar tu carga de trabajo en profundidad y descubrir cuellos de botella, consulta estos recursos:

Más herramientas de depuración

Puedes especificar variables de entorno para controlar el comportamiento de la pila de software de PyTorch/XLA.

Si detectas un error inesperado y necesitas ayuda, registra una incidencia en GitHub.

Gestionar tensores de XLA

En Particularidades de los tensores de XLA se describe lo que debes y no debes hacer al trabajar con tensores de XLA y pesos compartidos.