マルチスライス環境のプロファイリング

Cloud TPU マルチスライス環境は、データセンターネットワーク（DCN）を介して通信する複数の TPU スライスで構成されています。XProf の Megascale 統計ツールを使用すると、マルチスライス環境が DCN ネットワークをどの程度効率的に使用しているか確認できます。具体的には、Megascale 統計ツールを使用すると、次のことができます。

収集されたデータに基づいてスライス間ネットワークのパフォーマンスを表示、把握する
パフォーマンスのボトルネックを特定する
モデルのパフォーマンスを最適化する

Megascale 統計ツールのすべての指標は、TPU ごとに生成されます。このツールを有効にするには、フレームワークでプロファイルをキャプチャする場合と同じ手順を実施し、XProfiler ライブラリを使用して、プロファイルを表示するための TensorBoard XProf インスタンスを設定します。ワークロードがマルチスライスワークロードとして実行されている限り、TensorBoard にはマルチスライスワークロードに「Megascale stats」ツールが表示されます。

XProf の Megascale 統計ツールについて詳しくは、Megascale 統計ツールのガイドをご覧ください。

用語

DCN 集計統計ツールは、マルチスライス環境内の TPU スライス間で発生する通信を説明する指標を表示します。TPU ランタイムがスライス間通信を開始すると、一連のオペレーションが使用されます。

send: ホストを中断してダイレクトメモリアクセス（DMA）を開始し、ホストにバッファを提供してデータ転送を開始します。
send-done: データ転送が完了したことをホストに通知します。
recv: ホストが転送されたデータで埋める空のバッファを提供します。
recv-done: データが受信されたことをホストに通知します。

send オペレーションが発生するとグループが開始され、一致する recv-done オペレーションが発生すると完了します。

スラック時間

グループがデータを送受信できる時間の尺度。これには、send、send-done、recv、recv-done オペレーションは含まれません。たとえば、次のタイムラインがあるとします。

v5e Pod チップ

この例では、スラック時間は次のように計算されます。

スラック時間 = t₁ + t₂ + t₃

スラック時間を増やすと、TPU がまとめて停滞する可能性が低くなります。別のシャーディング方法を選択すると、スラック時間を長くできます。

ストール期間

送信、送信完了、受信、受信完了のオペレーションで集約が費やす平均時間。ただし、データの送信時間は含まれません。たとえば、次のタイムラインがあるとします。

v5e Pod チップ

この例では、ストール期間は次のように計算されます。

ストール期間 = t_send + t_send-done + t_recv + t_recv-done

観測時間

send オペレーションと recv-done オペレーションの間の所要時間（データの送受信時間を含む）。たとえば、次のタイムラインがあるとします。

v5e Pod チップ

観測時間は次のように計算されます。

観測時間 = t_send + t₁ + t_send-done + t₂ + t_recv + t₃ + t_recv-done

発生回数

プロファイルの期間中にコレクションが開始および完了した回数。send オペレーションが発生するとグループが開始され、一致する recv-end オペレーションが発生すると完了します。この指標に含まれるには、send オペレーションとそれに一致する recv-done オペレーションがプロファイルの期間内に発生している必要があります。

集計されたストールの合計

プロファイル期間中に集計が TPU を停止した合計時間。集計されたストールの合計は次のように計算されます。

集計されたストールの合計 = ストール期間 × 発生回数

送信されたデータサイズ

プロファイル期間中に集計に対してネットワーク経由で転送されたデータの量。

必要な帯域幅

指定されたスラック内でデータを送信するために必要な帯域幅。この指標を使用すると、プロファイルの期間中にネットワーク帯域幅を競合するコレクションの数を確認できます。必要な帯域幅は次のように計算されます。

必要な帯域幅 = 送信データサイズ ÷ スラック時間

ツールのステータス

次の表に、DCN 集計統計ツールに表示される各指標に必要な TensorFlow または TPU ランタイムバージョンを示します。

DCN の集計統計情報	サポートされている TPU ランタイムバージョンの TensorFlow
スラック時間	TensorFlow 2.15.0、tensorboard 2.15.1、tensorboard-plugin-profile 2.15.0
ストール期間	TensorFlow 2.15.0、tensorboard 2.15.1、tensorboard-plugin-profile 2.15.0
観測時間	TensorFlow 2.15.0、tensorboard 2.15.1、tensorboard-plugin-profile 2.15.0
発生回数	TensorFlow 2.15.0、tensorboard 2.15.1、tensorboard-plugin-profile 2.15.0
集計されたストールの合計	tf-nightly、tb-nightly、tbp-nightly
送信されたデータサイズ	tf-nightly、tb-nightly、tbp-nightly
必要な帯域幅	tf-nightly、tb-nightly、tbp-nightly

DCN 集計統計ツールを分析する方法

TensorBoard サーバーを実行し、[Profile] タブに移動します。
DCN 集計統計ツールのテーブルを [Aggregated Total Stall] の降順で並べ替えます。
[Aggregated Total Stall] が最も高い DCN グループ名を特定します。このグループの集計されたストール期間が他のグループと比較して大幅に長い場合は、DCN グループにボトルネックがあることを示している可能性があります。
DCN 集計統計ツールに必要な帯域幅にコア数を掛けます。v4 TPU ホストごとに 8 個のコアがあるため、集計に必要な帯域幅は表示される値の 8 倍になります。必要な帯域幅が TPU の最大ネットワーク帯域幅を超える場合は、ネットワークが輻輳している可能性があります。必要な帯域幅を削減するには、使用するシャーディングメカニズムを変更してみてください。シャーディングメカニズムの詳細については、Cloud TPU マルチスライスの概要をご覧ください。
HLO ダンプを生成し、コンパイラの問題がないか確認します。重複する HLO オペレーションのスケジューリングを可能にするには、send オペレーションと recv-done オペレーションを分散することをおすすめします。より多くの HLO オペレーションを重複させると、TPU の停止時間が短縮されます。
トレースビューアで、集計されたストールの合計が最大である DCN グループの recv-done オペレーションの期間を確認します。転送時間が長い場合、通常、recv-done オペレーションはデータを取得するためにネットワークでブロックされるため、帯域幅のボトルネックが発生する可能性があります。
recv-done オペレーションの時間がスラック時間に対してそれほど長くない場合は、ハードウェアに問題がある可能性があります。