Diese Seite wurde von der Cloud Translation API übersetzt.

Fehlerbehebung bei PyTorch – TPU

Diese Anleitung enthält Informationen zur Fehlerbehebung, mit denen Sie Probleme beim Trainieren von PyTorch-Modellen auf Cloud TPU identifizieren und beheben können. Eine allgemeine Anleitung zum Einstieg in Cloud TPU finden Sie in der PyTorch-Kurzanleitung.

Fehlerbehebung bei langsamer Trainingsleistung

Wenn das Modelltraining langsam ist, generieren und prüfen Sie einen Messwertbericht.

Wenn Sie den Messwertbericht automatisch analysieren und eine Zusammenfassung bereitstellen möchten, führen Sie einfach Ihre Arbeitslast mit PT_XLA_DEBUG=1 aus.

Weitere Informationen zu Problemen, die zu einem langsamen Training Ihres Modells führen können, finden Sie unter Bekannte Leistungseinschränkungen.

Leistungsprofilerstellung

Mit den folgenden Ressourcen können Sie ein detailliertes Profil Ihrer Arbeitslast erstellen, um Engpässe zu erkennen:

Weitere Debugging-Tools

Sie können Umgebungsvariablen angeben, um das Verhalten des PyTorch/XLA-Softwarestacks zu steuern.

Wenn Sie auf einen unerwarteten Fehler stoßen und Hilfe benötigen, melden Sie ein Problem auf GitHub.

XLA-Tensoren verwalten

XLA-Tensor-Eigenheiten beschreibt, was Sie bei der Arbeit mit XLA-Tensoren und gemeinsam genutzten Gewichtungen tun sollten und was nicht.