PyTorch - TPU のトラブルシューティング

このガイドでは、Cloud TPU で PyTorch モデルをトレーニングする際に発生する可能性のある問題を特定して解決する方法について説明します。Cloud TPU を使い始める際の一般的なガイドについては、PyTorch クイックスタートをご覧ください。

トレーニング パフォーマンスが遅い場合のトラブルシューティング

モデルのトレーニングに時間がかかる場合は、指標レポートを生成して確認します

指標レポートを自動的に分析してサマリーを提供するには、PT_XLA_DEBUG=1 のワークロードを実行します。

モデルのトレーニングが遅くなる可能性のある問題については、既知のパフォーマンスに関する注意事項をご覧ください。

パフォーマンス プロファイリング

ワークロードを掘り下げてボトルネックを検出するには、次のリソースを使用できます。

その他のデバッグツール

環境変数を指定して、PyTorch/XLA ソフトウェア スタックの動作を制御できます。

PyTorch プロセスが応答しなくなった場合は、GitHub の問題を提出し、スタック トレースを含めてください。

debug_run.py ユーティリティは、scriptT/debug_run.py に用意されています。このユーティリティを使用すると、PyTorch/XLA 実行のデバッグに必要な情報を含む tar.gz アーカイブを作成できます。

XLA テンソルの管理

XLA テンソル Quirks では、XLA テンソルと共有重みを使用する場合に行うべきこととすべきでないことについて説明しています。