使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
PyTorch - TPU 问题排查
本指南提供了问题排查信息,可帮助您识别和解决在 Cloud TPU 上训练 PyTorch 模型时可能遇到的问题。如需了解如何开始使用 Cloud TPU,请参阅 PyTorch 快速入门。
如果模型训练缓慢,请生成并查看指标报告。
如需自动分析指标报告并提供摘要,只需使用 PT_XLA_DEBUG=1 运行工作负载即可。
如需详细了解可能导致模型训练缓慢的问题,请参阅已知的性能注意事项。
如需深入剖析工作负载性能以发现瓶颈,您可以使用以下资源:
您可以指定环境变量来控制 PyTorch/XLA 软件栈的行为。
如果 PyTorch 进程停止响应,请提交 GitHub 问题并添加堆栈轨迹。
scripts/debug_run.py 中提供了 debug_run.py 实用程序,可用于创建 tar.gz
归档,其中包含调试 PyTorch/XLA 执行作业所需的信息。
管理 XLA 张量
XLA 张量杂项描述了使用 XLA 张量和共享权重时应该和不应该执行的操作。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-02-14。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-02-14。"],[],[]]