Fehler im Cloud TPU-Workflow beheben

Wenn Ihre Trainings- oder Inferenzarbeitslast auf TPUs ausgeführt wird, müssen Sie im nächsten Schritt prüfen, ob die Arbeitslast wie erwartet funktioniert. Cloud TPU generiert Messwerte und Logs, mit denen Sie TPU-VMs, die sich nicht wie erwartet verhalten, suchen und debuggen können. In dieser Dokumentation werden solche VMs als Ausreißer bezeichnet.

Der allgemeine Workflow zur Fehlerbehebung sieht so aus:

Cloud TPU-Messwerte zur Prüfung auf Ausreißer-TPU-VMs ansehen
Cloud TPU-Logs für Ausreißer-TPU-VMs ansehen
Arbeitslastprofil

Sie können Messwerte und Logs im Metrics Explorer und im Log-Explorer in der Google Cloud Console ansehen. Sie können auch Monitoring- und Logging-Dashboards verwenden, um alle Cloud TPU-bezogenen Messwerte und Logs in einzelnen Dashboards zu erfassen.

Cloud TPU-VM-Messwerte

Cloud Monitoring erfasst automatisch Messwerte aus Ihren TPUs und ihren Host-VMs in Compute Engine. Messwerte verfolgen numerische Mengen im Zeitverlauf, z. B. CPU-Auslastung, Netzwerknutzung oder Dauer der TensorCore-Inaktivität. Weitere Informationen zu Cloud TPU-Messwerten finden Sie unter TPU-VMs überwachen.

Cloud TPU-Logs

Cloud Logging erfasst automatisch Logs aus Ihren TPUs und ihren Host-VMs in Compute Engine. Cloud Logging verfolgt von Cloud TPU generierte Ereignisse. Sie können Ihren Code auch instrumentieren, um Protokolle zu generieren. Cloud TPU generiert zwei Arten von Logs:

TPU-Worker-Logs
Geprüfte Ressourcenlogs

TPU-Worker-Logs enthalten Informationen zu einem bestimmten TPU-Worker in einer bestimmten Zone, z. B. die Größe des auf dem TPU-Worker verfügbaren Arbeitsspeichers (system_available_memory_GiB).

Geprüfte Ressourcenlogs enthalten Informationen darüber, wann eine bestimmte Cloud TPU API aufgerufen wurde und von wem der Aufruf stammt. Beispiel: CreateNode, UpdateNode und DeleteNode.

Sie können auch das PyPi-Paket cloud-tpu-diagnostics verwenden, um Stacktraces in Logs zu schreiben. Weitere Informationen finden Sie unter TPU-VMs debuggen.

Weitere Informationen zu Logs finden Sie unter Logging.

Monitoring- und Logging-Dashboards

Mit einer einzigen Seite in der Google Cloud Console können Cloud TPU-bezogene Messwerte und Logs einfacher angezeigt und interpretiert werden. Das GitHub-Repository für monitoring-debugging enthält eine Reihe von Skripts und Konfigurationsdateien, die mithilfe von Terraform automatisch Dashboards bereitstellen, die alle Cloud TPU-Messwerte und Logs in Dashboards enthalten. Informationen zum Einrichten dieser Dashboards in Ihrem Google Cloud-Projekt finden Sie unter Monitoring- und Logging-Dashboards.

Profilerstellung für Arbeitslasten auf TPU-VMs

Mithilfe von Profilen können Sie die Trainingsleistung Ihres Modells auf TPU-VMs optimieren. Verwenden Sie TensorBoard und das TPU TensorBoard-Plug-in, um ein Profil für Ihr Modell zu erstellen. Weitere Informationen zum Erstellen eines Profils für Ihre Arbeitslast finden Sie unter Profil für Ihr Modell auf TPU-VMs erstellen.

Weitere Informationen zur Verwendung von TensorBoard mit einem der unterstützten Frameworks finden Sie in den folgenden Dokumenten: