Cloud TPU-Fehler und Leistungsprobleme beheben

In diesen Dokumenten zur Fehlerbehebung werden Fehlerbedingungen und Leistungsprobleme beschrieben, die beim Training mit Cloud TPUs mit TensorFlow, JAX und PyTorch auftreten können.

Unter Monitoring mit Stacktrace wird beschrieben, wie Sie logbasierte Messwerte erstellen, mit denen Benachrichtigungen erstellt und Dashboards zur Behebung von Fehlern und Leistungsproblemen angezeigt werden können.

Wenn Sie nicht ermitteln können, ob das Problem, das Sie sehen, auf ein bestimmtes Framework zurückzuführen ist, beginnen Sie mit der Fehlerbehebung für TensorFlow – TPU.