Fehlerbehebung bei Cloud TPU-Fehlern und Leistungsproblemen

In diesen Dokumenten zur Fehlerbehebung werden Fehlerbedingungen und Leistungsprobleme beschrieben, die beim Training mit Cloud TPUs mit TensorFlow, JAX und PyTorch auftreten können.

Unter Monitoring mit Stacktrace wird beschrieben, wie Sie logbasierte Messwerte erstellen, die zum Erstellen von Benachrichtigungen und zur Visualisierung von Dashboards verwendet werden können, um Fehler und Leistungsprobleme zu beheben.

Wenn Sie nicht feststellen können, ob das Problem für ein bestimmtes Framework spezifisch ist, beginnen Sie mit der Fehlerbehebung bei TensorFlow – TPU.