PyTorch - TPU のトラブルシューティング

このガイドでは、Cloud TPU で PyTorch モデルをトレーニングする際に発生する可能性のある問題を特定して解決するため、JAX のトラブルシューティング情報について説明します。Cloud TPU を使い始める際の一般的なガイドについては、PyTorch クイックスタートをご覧ください。

トレーニングパフォーマンスが遅い場合のトラブルシューティング

モデルのトレーニングが遅い場合は、指標レポートを生成して確認します。

指標レポートを自動的に分析してサマリーを生成するには、PT_XLA_DEBUG=1 でワークロードを実行します。

モデルのトレーニングが遅くなる原因となる可能性のある問題については、既知のパフォーマンスに関する注意事項をご覧ください。

ワークロードを詳細にプロファイリングしてボトルネックを検出するために、次のリソースを使用できます。

環境変数を指定して、PyTorch/XLA ソフトウェアスタックの動作を制御できます。

PyTorch プロセスが応答しなくなった場合は、GitHub の問題を提出し、スタックトレースを含めてください。

debug_run.py ユーティリティは、scripts/debug_run.py に用意されています。これを使用すると、PyTorch/XLA 実行のデバッグに必要な情報を含む tar.gz アーカイブを作成できます。

XLA テンソル Quirks では、XLA テンソルと共有重みを使用する場合に行うべきこととすべきでないことについて説明しています。