Soluciona problemas de PyTorch: TPU

En esta guía, se proporciona información para solucionar problemas que te ayudará a identificar y resolver problemas que podrías encontrar mientras entrenas modelos de PyTorch en Cloud TPU. Para obtener una guía más general a fin de comenzar a usar Cloud TPU, consulta la guía de inicio rápido de PyTorch.

Soluciona problemas de rendimiento lento de entrenamiento

Si el modelo se entrena lentamente, genera y revisa un informe de métricas.

Para analizar el informe de métricas de forma automática y proporcionar un resumen, ejecuta tu carga de trabajo con PT_XLA_DEBUG=1.

Si quieres obtener más información sobre los problemas que podrían hacer que tu modelo se entrene con lentitud, consulta Advertencias de rendimiento conocidas.

Generación de perfiles de rendimiento

Para generar un perfil de la carga de trabajo en profundidad a fin de descubrir cuellos de botella, puedes usar los siguientes recursos:

Más herramientas de depuración

Puedes especificar variables de entorno para controlar el comportamiento de la pila de software de PyTorch/XLA.

Si el proceso de PyTorch deja de responder, informa un problema en GitHub y, luego, incluye los seguimientos de pila.

Se proporciona una utilidad debug_run.py en secuencia de comandos/debug_run.py que se puede usar a fin de crear un archivo tar.gz con la información requerida para depurar las ejecuciones de PyTorch/XLA.

Administra tensores XLA

Quirks de tensor XLA describe lo que debes y no debes hacer cuando trabajas con tensores de XLA y pesos compartidos.