PyTorch XLA ワークロードをプロファイリングする

プロファイリングにより、モデルのパフォーマンスを分析して改善できます。プロファイリングには他にも多くの要素がありますが、プロファイリングはタイミングオペレーションとして、またデバイス（TPU）とホスト（CPU）の両方で実行されるコードの一部と考えると役に立つ場合があります。このガイドでは、トレーニングや推論用にコードをプロファイリングする方法の概要を簡単に説明します。生成されたプロファイルを分析する方法の詳細については、次のガイドをご覧ください。

使ってみる

TPU を作成する

環境変数をエクスポートする
```
$ export TPU_NAME=your_tpu_name
$ export ZONE=us-central2-b
$ export PROJECT_ID=project-id
$ export ACCELERATOR_TYPE=v4-8
$ export RUNTIME_VERSION=tpu-vm-v4-pt-2.0
```
変数の説明をエクスポートする

TPU name

Cloud TPU に使用する名前。

zone

Cloud TPU を作成するゾーン。

project ID

モデルのトレーニングとプロファイリングに使用するプロジェクト ID。

accelerator-type

アクセラレータタイプでは、作成する Cloud TPU のバージョンとサイズを指定します。TPU のバージョンごとにサポートされているアクセラレータタイプの詳細については、TPU のバージョンをご覧ください。

version

Cloud TPU ランタイムのバージョン。デフォルトはエクスポートされた変数に表示されますが、サポートされている構成のリストから使用することもできます。

TPU リソースを起動する

$ gcloud compute tpus tpu-vm create ${TPU_NAME} \
--zone us-central2-b \
--accelerator-type ${ACCELERATOR_TYPE} \
--version ${RUNTIME_VERSION} \
--project $PROJECT_ID \
--subnetwork=tpusubnet

gcloud scp コマンドを使用して、TPU VM のホームディレクトリにコードを移動します。次に例を示します。
```
$ gcloud compute tpus tpu-vm scp my-code-file ${TPU_NAME}: --zone ${ZONE}
```

プロファイリング

プロファイルは capture_profile.py を使用して手動でキャプチャすることも、torch_xla.debug.profiler API を使用してトレーニングスクリプト内からプログラマティックにキャプチャすることもできます。

プロファイルサーバーの起動

プロファイルをキャプチャするには、トレーニングスクリプト内でプロファイルサーバーを実行する必要があります。任意のポート番号（次のコマンドにある 9012 など）でサーバーを起動します。

import torch_xla.debug.profiler as xp
server = xp.start_server(9012)

サーバーは main 関数の開始と同時に起動できます。

これで、次のセクションで説明するようにプロファイルをキャプチャできるようになりました。このスクリプトは、1 つの TPU デバイスで発生するすべての状況をプロファイリングします。

トレースの追加

ホストマシンでオペレーションをプロファイリングする場合は、コードに xp.StepTrace または xp.Trace を追加します。これらの関数は、ホストマシン上の Python コードをトレースします。（これは「グラフ」を TPU デバイスに渡すまで、ホスト（CPU）で Python コードを実行するのにかかる時間の測定値と考えることができます。そのため、これはトレースのオーバーヘッドを分析する際に非常に役立ちます）。これは、コードがデータのバッチを処理するトレーニングループ内に追加できます。たとえば、

for step, batch in enumerate(train_dataloader):
    with xp.StepTrace('Training_step', step_num=step): 
       ...

または、コードの個々の部分を以下のものでラップします

 with xp.Trace('loss'): 
    loss = ...

Lighting を使用している場合は、コードの一部で自動的に行われるため、トレースの追加をスキップできます。ただし、さらにトレースを追加する場合は、トレーニングループ内に挿入できます。

最初のコンパイル後にデバイスのアクティビティをキャプチャできます。モデルがトレーニングまたは推論のステップを開始するまで待機してください。

手動キャプチャ

Pytorch XLA リポジトリの capture_profile.py スクリプトを使用すると、プロファイルを迅速にキャプチャできます。これを行うには、キャプチャプロファイルファイルを TPU VM に直接コピーします。次のコマンドは、このファイルをホームディレクトリにコピーします。

$ gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--zone us-central2-b \
--worker=all \
--command="wget https://raw.githubusercontent.com/pytorch/xla/master/scripts/capture_profile.py"

トレーニングの実行中に、次のコマンドを実行してプロファイルをキャプチャします。

$ gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--zone us-central2-b \
--worker=all \
--command="python3 capture_profile.py --service_addr "localhost:9012" --logdir ~/profiles/ --duration_ms 2000"

このコマンドは .xplane.pb ファイルを logdir に保存します。ロギングディレクトリ ~/profiles/ を任意の場所と名前に変更できます。Cloud Storage バケットに直接保存することもできます。そのためには、logdir を gs://your_bucket_name/ に設定します。

プログラマティックキャプチャ

スクリプトをトリガーしてプロファイルを手動でキャプチャするのではなく、トレーニングスクリプト内で torch_xla.debug.profiler.trace_detached API を使用してプロファイルを自動的にトリガーするようにトレーニングスクリプトを構成できます。

たとえば、特定のエポックとステップでプロファイルを自動的にキャプチャするには、PROFILE_STEP、PROFILE_EPOCH、PROFILE_LOGDIR 環境変数を使用するようにトレーニングスクリプトを構成できます。

import os
import torch_xla.debug.profiler as xp

# Within the training script, read the step and epoch to profile from the
# environment.
profile_step = int(os.environ.get('PROFILE_STEP', -1))
profile_epoch = int(os.environ.get('PROFILE_EPOCH', -1))
...

for epoch in range(num_epoch):
   ...
   for step, data in enumerate(epoch_dataloader):
      if epoch == profile_epoch and step == profile_step:
         profile_logdir = os.environ['PROFILE_LOGDIR']
         # Use trace_detached to capture the profile from a background thread
         xp.trace_detached('localhost:9012', profile_logdir)
      ...

これにより、.xplane.pb ファイルが PROFILE_LOGDIR 環境変数で指定されたディレクトリに保存されます。

TensorBoard で分析する

プロファイルをさらに分析するには、同じまたは別のマシンの TPU TensorBoard プラグイン
で TensorBoard を使用します（推奨）。

リモートマシンで TensorBoard を実行するには、SSH を使用して TensorBoard に接続し、ポート転送を有効にします。たとえば、

$ ssh -L 6006:localhost:6006 remote server address

または

$ gcloud compute tpus tpu-vm ssh $TPU_NAME --zone=$ZONE --ssh-flag="-4 -L 6006:localhost:6006"

リモートマシンで、必要なパッケージをインストールし、TensorBoard を起動します（マシンの ~/profiles/ にプロファイルがある場合）。プロファイルを別のディレクトリまたは Cloud Storage バケットに保存した場合は、必ずパスを正しく指定してください（例: gs://your_bucket_name/profiles）。

(vm)$ pip install tensorflow-cpu tensorboard-plugin-profile

(vm)$ tensorboard --logdir ~/profiles/ --port 6006

(vm)$ pip uninstall tensorflow tf-nightly tensorboard tb-nightly tbp-nightly

TensorBoard の実行

ローカルブラウザで、http://localhost:6006/ に移動し、プルダウンメニューから [PROFILE] を選択してプロファイルを読み込みます。

TensorBoard ツールとその出力の解釈方法については、TPU ツールをご覧ください。