Fehlerbehebung bei PyTorch – TPU
Diese Anleitung enthält Informationen zur Fehlerbehebung, mit denen Sie Probleme beim Trainieren von PyTorch-Modellen auf Cloud TPU identifizieren und beheben können. Eine allgemeine Anleitung zum Einstieg in Cloud TPU finden Sie in der PyTorch-Kurzanleitung.
Fehlerbehebung bei langsamer Trainingsleistung
Wenn das Modell langsam trainiert wird, können Sie einen Messwertbericht erstellen und prüfen.
Wenn Sie den Messwertbericht automatisch analysieren und eine Zusammenfassung bereitstellen möchten, führen Sie einfach Ihre Arbeitslast mit PT_XLA_DEBUG=1 aus.
Weitere Informationen zu Problemen, die ein langsames Trainieren des Modells verursachen können, finden Sie unter Bekannte Einschränkungen bei der Leistung.
Leistungsprofilerstellung
Mit den folgenden Ressourcen können Sie ein detailliertes Profil Ihrer Arbeitslast erstellen, um Engpässe zu erkennen:
- PyTorch/XLA-Leistungsprofilerstellung
- PyTorch/XLA-Profilerstellung Colab
- Beispiel für ein MNIST-Trainingsskript mit Profilerstellung
Weitere Debugging-Tools
Sie können Umgebungsvariablen angeben, um das Verhalten des PyTorch/XLA-Softwarestacks zu steuern.
Wenn der PyTorch-Prozess nicht mehr reagiert, können Sie ein GitHub-Problem einreichen und Stacktraces hinzufügen.
Das debug_run.py-Dienstprogramm wird in Scripts/debug_run.py bereitgestellt, mit dem ein tar.gz
-Archiv mit den Informationen erstellt werden kann, die zum Debuggen von PyTorch/XLA-Ausführungen erforderlich sind.
XLA-Tensoren verwalten
XLA-Tensor-Quirks beschreibt, was Sie bei der Arbeit mit XLA-Tensoren und gemeinsam genutzten Gewichtungen tun sollten und was nicht.