排查 Cloud TPU 错误和性能问题

这些问题排查文档介绍了在通过 Cloud TPU 使用 TensorFlow、JAX 和 PyTorch 时可能会看到的错误条件和性能问题。

使用 Stacktrace 进行监控介绍了如何创建基于日志的指标,该指标可用于创建提醒和直观显示信息中心以帮助调试错误和性能问题。

如果您无法确定您看到的问题是否特定于特定框架,请从 TensorFlow - TPU 问题排查开始。