Risoluzione dei problemi di PyTorch - TPU

Questa guida fornisce informazioni sulla risoluzione dei problemi che consentono di identificare e risolvere i problemi che potresti riscontrare durante l'addestramento di modelli PyTorch su Cloud TPU. Per una guida più generale su come iniziare a utilizzare Cloud TPU, consulta la guida rapida di PyTorch.

Risoluzione dei problemi relativi alle prestazioni lente dell'addestramento

Se il modello viene addestrato lentamente, genera ed esamina un report sulle metriche.

Per analizzare automaticamente il report sulle metriche e fornire un riepilogo, è sufficiente eseguire il carico di lavoro con PT_XLA_DEBUG=1.

Per ulteriori informazioni sui problemi che potrebbero causare un lento addestramento del modello, consulta Avvertenze note relative alle prestazioni.

Profilazione delle prestazioni

Per profilare il carico di lavoro in modo approfondito e individuare i colli di bottiglia, puoi utilizzare le seguenti risorse:

Altri strumenti di debug

Puoi specificare le variabili di ambiente per controllare il comportamento dello stack software PyTorch/XLA.

Se il processo PyTorch smette di rispondere, invia un problema su GitHub e includi tracce dello stack.

In script/debug_run.py è disponibile un'utilità debug_run.py che può essere utilizzata per creare un archivio tar.gz con le informazioni necessarie per eseguire il debug delle esecuzioni di PyTorch/XLA.

Gestione dei tensori XLA

XLA tensor Quirks descrive cosa fare e cosa non fare quando si lavora con tensori XLA e pesi condivisi.