Fehlerbehebung für Cloud TPU-Workflows
Nachdem Sie Ihre Trainings- oder Inferenzarbeitslast auf TPUs ausgeführt haben, müssen Sie als Nächstes prüfen, ob sie wie erwartet funktioniert. Cloud TPU generiert Messwerte und Protokolle, mit denen Sie nach TPU-VMs suchen und diese beheben können, die sich nicht wie erwartet verhalten. In dieser Dokumentation werden solche VMs als Ausreißer bezeichnet.
Der allgemeine Workflow zur Fehlerbehebung:
- Cloud TPU-Messwerte ansehen, um nach auffälligen TPU-VMs zu suchen
- Cloud TPU-Logs für die auffälligen TPU-VMs ansehen
- Arbeitslast profilieren
Sie können Messwerte und Protokolle im Metrics Explorer und im Log-Explorer in der Google CloudConsole aufrufen. Sie können auch Monitoring- und Logging-Dashboards verwenden, um alle Cloud TPU-bezogenen Messwerte und Protokolle in einzelnen Dashboards zu erfassen.
Cloud TPU-VM-Messwerte
Cloud Monitoring erfasst automatisch Messwerte von Ihren TPUs und ihren Compute Engine-Host-VMs. Messwerte erfassen numerische Werte im Zeitverlauf, z. B. die CPU-Auslastung, die Netzwerknutzung oder die Inaktivitätsdauer des TensorCore. Weitere Informationen zu Cloud TPU-Messwerten finden Sie unter TPU-VMs überwachen.
Cloud TPU-Logs
Cloud Logging erfasst automatisch Logs von Ihren TPUs und ihren Compute Engine-VM-Hosts. Cloud Logging erfasst Ereignisse, die von Cloud TPU generiert werden. Sie können Ihren Code auch instrumentieren, um Protokolle zu generieren. Von Cloud TPU werden zwei Arten von Protokollen generiert:
- TPU-Worker-Logs
- Protokolle für geprüfte Ressourcen
TPU-Worker-Protokolle enthalten Informationen zu einem bestimmten TPU-Worker in einer bestimmten Zone, z. B. die Menge des auf dem TPU-Worker verfügbaren Arbeitsspeichers (system_available_memory_GiB).
Audit-Logs für Ressourcen enthalten Informationen dazu, wann eine bestimmte Cloud TPU API aufgerufen wurde und wer den Aufruf getätigt hat. Beispiel: CreateNode
, UpdateNode
und DeleteNode
.
Sie können auch das PyPi-Paket cloud-tpu-diagnostics
verwenden, um Stack-Traces in Protokolle zu schreiben. Weitere Informationen finden Sie unter Debugging von TPU-VMs.
Weitere Informationen zu Protokollen finden Sie unter Logging.
Monitoring- und Logging-Dashboards
Eine einzige Seite in der Google Cloud Console kann das Ansehen und Interpretieren von Cloud TPU-bezogenen Messwerten und Logs erleichtern. Das GitHub-Repository monitoring-debugging enthält eine Reihe von Scripts und Konfigurationsdateien, mit denen mit Terraform automatisch Dashboards bereitgestellt werden, die alle Cloud TPU-bezogenen Messwerte und Protokolle enthalten. Informationen zum Einrichten dieser Dashboards in Ihrem Google Cloud Projekt finden Sie unter Monitoring- und Logging-Dashboards.
Arbeitslasten auf TPU-VMs profilerstellen
Mithilfe des Profilerstellung können Sie die Trainingsleistung Ihres Modells auf TPU-VMs optimieren. Sie verwenden TensorBoard und das TPU TensorBoard-Plug-in, um Ihr Modell zu profilieren. Weitere Informationen zum Erstellen eines Leistungsprofils für Ihre Arbeitslast finden Sie unter Modell auf TPU-VMs profilieren.
Weitere Informationen zur Verwendung von TensorBoard mit einem der unterstützten Frameworks finden Sie in den folgenden Dokumenten: