Risoluzione dei problemi di PyTorch - TPU
Questa guida fornisce informazioni sulla risoluzione dei problemi che consentono di identificare e risolvere i problemi che potresti riscontrare durante l'addestramento di modelli PyTorch su Cloud TPU. Per una guida più generale su come iniziare a utilizzare Cloud TPU, consulta la guida rapida di PyTorch.
Risoluzione dei problemi relativi alle prestazioni lente dell'addestramento
Se il modello viene addestrato lentamente, genera ed esamina un report sulle metriche.
Per analizzare automaticamente il report sulle metriche e fornire un riepilogo, è sufficiente eseguire il carico di lavoro con PT_XLA_DEBUG=1.
Per ulteriori informazioni sui problemi che potrebbero causare un lento addestramento del modello, consulta Avvertenze note relative alle prestazioni.
Profilazione delle prestazioni
Per profilare il carico di lavoro in modo approfondito e individuare i colli di bottiglia, puoi utilizzare le seguenti risorse:
- Profilazione delle prestazioni di PyTorch/XLA
- Colab sulla profilazione di PyTorch/XLA
- Script di addestramento MNIST di esempio con profilazione
Altri strumenti di debug
Puoi specificare le variabili di ambiente per controllare il comportamento dello stack software PyTorch/XLA.
Se il processo PyTorch smette di rispondere, invia un problema su GitHub e includi tracce dello stack.
In script/debug_run.py è disponibile un'utilità debug_run.py che può essere utilizzata per creare un archivio tar.gz
con le informazioni necessarie per eseguire il debug delle esecuzioni di PyTorch/XLA.
Gestione dei tensori XLA
XLA tensor Quirks descrive cosa fare e cosa non fare quando si lavora con tensori XLA e pesi condivisi.