Risoluzione dei problemi di PyTorch - TPU

Questa guida fornisce informazioni per la risoluzione dei problemi che potresti riscontrare durante l'addestramento dei modelli PyTorch su Cloud TPU. Per una guida più generale su come iniziare a utilizzare Cloud TPU, consulta la guida rapida di PyTorch.

Risolvere i problemi di prestazioni di addestramento lente

Se il modello viene addestrato lentamente, genera ed esamina un report sulle metriche.

Per analizzare automaticamente il report sulle metriche e fornire un riepilogo, è sufficiente eseguire il tuo workload con PT_XLA_DEBUG=1.

Per ulteriori informazioni sui problemi che potrebbero causare un'addestramento lento del modello, consulta Limitazioni note relative al rendimento.

Profilazione del rendimento

Per analizzare in modo approfondito il tuo carico di lavoro e scoprire i colli di bottiglia, puoi utilizzare le seguenti risorse:

Altri strumenti di debug

Puoi specificare variabili di ambiente per controllare il comportamento dello stack software PyTorch/XLA.

Se il processo PyTorch smette di rispondere, invia una segnalazione su GitHub e includi le analisi dello stack.

In scripts/debug_run.py è fornita un'utilità debug_run.py che può essere utilizzata per creare un'tar.gz archiviazione con le informazioni necessarie per eseguire il debug delle esecuzioni di PyTorch/XLA.

Gestione dei tensori XLA

Aspetti insoliti dei tensori XLA descrive cosa devi e non devi fare quando lavori con i tensori XLA e i pesi condivisi.