Fehlerbehebung für Cloud TPU-Workflows

Nachdem Sie Ihre Trainings- oder Inferenzarbeitslast auf TPUs ausgeführt haben, müssen Sie als Nächstes prüfen, ob sie wie erwartet funktioniert. Cloud TPU generiert Messwerte und Protokolle, mit denen Sie nach TPU-VMs suchen und diese beheben können, die sich nicht wie erwartet verhalten. In dieser Dokumentation werden solche VMs als Ausreißer bezeichnet.

Der allgemeine Workflow zur Fehlerbehebung:

  1. Cloud TPU-Messwerte ansehen, um nach auffälligen TPU-VMs zu suchen
  2. Cloud TPU-Logs für die auffälligen TPU-VMs ansehen
  3. Arbeitslast profilieren

Sie können Messwerte und Protokolle im Metrics Explorer und im Log-Explorer in der Google CloudConsole aufrufen. Sie können auch Monitoring- und Logging-Dashboards verwenden, um alle Cloud TPU-bezogenen Messwerte und Protokolle in einzelnen Dashboards zu erfassen.

Cloud TPU-VM-Messwerte

Cloud Monitoring erfasst automatisch Messwerte von Ihren TPUs und ihren Compute Engine-Host-VMs. Messwerte erfassen numerische Werte im Zeitverlauf, z. B. die CPU-Auslastung, die Netzwerknutzung oder die Inaktivitätsdauer des TensorCore. Weitere Informationen zu Cloud TPU-Messwerten finden Sie unter TPU-VMs überwachen.

Cloud TPU-Logs

Cloud Logging erfasst automatisch Logs von Ihren TPUs und ihren Compute Engine-VM-Hosts. Cloud Logging erfasst Ereignisse, die von Cloud TPU generiert werden. Sie können Ihren Code auch instrumentieren, um Protokolle zu generieren. Von Cloud TPU werden zwei Arten von Protokollen generiert:

  • TPU-Worker-Logs
  • Protokolle für geprüfte Ressourcen

TPU-Worker-Protokolle enthalten Informationen zu einem bestimmten TPU-Worker in einer bestimmten Zone, z. B. die Menge des auf dem TPU-Worker verfügbaren Arbeitsspeichers (system_available_memory_GiB).

Audit-Logs für Ressourcen enthalten Informationen dazu, wann eine bestimmte Cloud TPU API aufgerufen wurde und wer den Aufruf getätigt hat. Beispiel: CreateNode, UpdateNode und DeleteNode.

Sie können auch das PyPi-Paket cloud-tpu-diagnostics verwenden, um Stack-Traces in Protokolle zu schreiben. Weitere Informationen finden Sie unter Debugging von TPU-VMs.

Weitere Informationen zu Protokollen finden Sie unter Logging.

Monitoring- und Logging-Dashboards

Eine einzige Seite in der Google Cloud Console kann das Ansehen und Interpretieren von Cloud TPU-bezogenen Messwerten und Logs erleichtern. Das GitHub-Repository monitoring-debugging enthält eine Reihe von Scripts und Konfigurationsdateien, mit denen mit Terraform automatisch Dashboards bereitgestellt werden, die alle Cloud TPU-bezogenen Messwerte und Protokolle enthalten. Informationen zum Einrichten dieser Dashboards in Ihrem Google Cloud Projekt finden Sie unter Monitoring- und Logging-Dashboards.

Arbeitslasten auf TPU-VMs profilerstellen

Mithilfe des Profilerstellung können Sie die Trainingsleistung Ihres Modells auf TPU-VMs optimieren. Sie verwenden TensorBoard und das TPU TensorBoard-Plug-in, um Ihr Modell zu profilieren. Weitere Informationen zum Erstellen eines Leistungsprofils für Ihre Arbeitslast finden Sie unter Modell auf TPU-VMs profilieren.

Weitere Informationen zur Verwendung von TensorBoard mit einem der unterstützten Frameworks finden Sie in den folgenden Dokumenten: