PyTorch - TPU 问题排查

本指南提供了问题排查信息,可帮助您识别和解决在 Cloud TPU 上训练 PyTorch 模型时可能遇到的问题。如需了解如何开始使用 Cloud TPU,请参阅 PyTorch 快速入门

对训练性能缓慢进行问题排查

如果模型训练缓慢,请生成并查看指标报告

如需自动分析指标报告并提供摘要,只需使用 PT_XLA_DEBUG=1 运行工作负载即可。

如需详细了解可能导致模型训练缓慢的问题,请参阅已知的性能注意事项

性能剖析

如需深入剖析工作负载性能以发现瓶颈,您可以使用以下资源:

更多调试工具

您可以指定环境变量来控制 PyTorch/XLA 软件栈的行为。

如果 PyTorch 进程停止响应,请提交 GitHub 问题并添加堆栈轨迹

scripts/debug_run.py 中提供了 debug_run.py 实用程序,可用于创建 tar.gz 归档,其中包含调试 PyTorch/XLA 执行作业所需的信息。

管理 XLA 张量

XLA 张量杂项描述了使用 XLA 张量和共享权重时应该和不应该执行的操作。