TPU のアーキテクチャ

Tensor Processing Unit（TPU）は、ML ワークロードを高速化するために Google が設計したアプリケーション固有の集積回路（ASIC）です。Cloud TPU は、TPU をスケーラブルなリソースとして利用できるようにする Google Cloud サービスです。

TPU は、行列演算をすばやく実行するように設計されているため、ML ワークロードに最適です。Pytorch、JAX などのフレームワークを使用して、TPU で ML ワークロードを実行できます。

TPU の仕組み

TPU の仕組みを理解するには、ML モデルのトレーニングにおける計算上の課題に、他のアクセラレータがどのように対処しているかを理解することが役立ちます。

CPU の仕組み

CPU は、フォンノイマンアーキテクチャに基づく汎用プロセッサです。つまり、CPU は以下に示すようにソフトウェアとメモリと連動して機能します。

CPU の仕組みを表す図

CPU の最大のメリットは、その柔軟性です。さまざまな種類のアプリケーションに対して、任意の種類のソフトウェアを CPU に読み込むことができます。たとえば、PC での文書処理、ロケットエンジンの制御、銀行取引、さらにはニューラルネットワークを使用した画像分類にも CPU を使用できます。

CPU はメモリから値を読み込み、計算を行い、すべての計算結果をメモリに保存します。メモリアクセスは、計算速度に比べて遅く、CPU の総スループットを制限することがあります。これはフォンノイマンボトルネックとも呼ばれます。

GPU の仕組み

スループットを向上させるため、GPU には単一のプロセッサ内に数千の算術論理演算ユニット（ALU）が組み込まれています。最新の GPU には、通常 2,500～5,000 個の ALU が含まれています。大量のプロセッサが存在するということは、数千の乗算と加算を同時に実行できるということになります。

GPU の仕組みを表す図

ニューラルネットワークでの行列乗算のように大量の並列処理を行うアプリケーションでは、この GPU アーキテクチャが効果を発揮します。実際、ディープラーニングの一般的なトレーニングワークロードでは、GPU によって CPU とは桁違いのスループットを達成できます。

しかし、GPU が汎用プロセッサであることに変わりはなく、数多くのアプリケーションやソフトウェアをサポートしなければなりません。したがって、GPU にも CPU と同じ問題があります。何千もの ALU で行われるすべての計算で、GPU はレジスタや共有メモリにアクセスして、オペランドを読み取り、計算の中間結果を保存しなければなりません。

TPU の仕組み

Cloud TPU は、Google がニューラルネットワークのワークロードに特化して設計した行列プロセッサです。TPU は文書処理、ロケットエンジンの制御、銀行取引といった操作に対応できませんが、ニューラルネットワークで使用される大規模な行列演算は極めて高速に処理できます。

TPU の主なタスクは、乗算演算と累積演算の組み合わせである行列処理です。TPU には数千の乗算アキュムレータが含まれています。これらは、直接接続して大規模な物理マトリックスを形成しています。この構造は、シストリックアレイアーキテクチャと呼ばれています。Cloud TPU v3 では、単一プロセッサ上に 128 x 128 ALU のシストリックアレイが 2 つあります。

TPU ホストは、インフィードキューにデータをストリーミングします。TPU は、インフィードキューからデータを読み込んで HBM メモリに保存します。計算が完了すると、TPU は結果をアウトフィードキューに読み込みます。TPU ホストは次に、アウトフィードキューから結果を読み取り、ホストのメモリに保存します。

行列演算を実行するために、TPU は HBM メモリからパラメータを Matrix Multiplication Unit（MXU）に読み込みます。

TPU がメモリからパラメータを読み込む方法を示す図

続いて、TPU は HBM メモリからデータを読み込みます。乗算が行われるたびに、その結果が次の乗算アキュムレータに渡されます。データとパラメータの乗算結果をすべて合計したものが出力となります。行列乗算処理中にメモリアクセスは必要ありません。

TPU がメモリからデータを読み込む方法を示す図

その結果、TPU はニューラルネットワークにおいて、高い演算スループットを達成できます。

TPU システムアーキテクチャ

以降のセクションでは、TPU システムの主なコンセプトについて説明します。ML の一般的な用語の詳細については、ML の用語集をご覧ください。

Cloud TPU を初めて使用する場合は、TPU ドキュメントのホームページをご覧ください。

TPU チップ

TPU チップには、1 つ以上の TensorCore が含まれています。TensorCore の数は、TPU チップのバージョンによって異なります。各 TensorCore は、1 つ以上のマトリックス乗算ユニット（MXU）、ベクトルユニット、スカラーユニットから構成されます。TensorCore の詳細については、ディープニューラルネットワークをトレーニングするための一領域に特化したスーパーコンピュータをご覧ください。

MXU は、シストリックアレイ内の 256 x 256（TPU v6e）または 128 x 128（v6e より前の TPU バージョン）の乗算アキュムレータで構成されています。MXU は、TensorCore の大部分の計算能力を提供します。各 MXU により、サイクルごとに 16,000 の乗累算演算を処理できます。すべての乗算は bfloat16 の入力を取りますが、すべての累積は FP32 数値形式で実行されます。

ベクトルユニットは、活性化やソフトマックスなどの一般的な計算に使用されます。スカラーユニットは、制御フロー、メモリアドレスの計算、その他のメンテナンスオペレーションに使用されます。

TPU Pod

TPU Pod は、専用のネットワークでグループ化された一連の連続した TPU です。TPU Pod 内の TPU チップの数は、TPU のバージョンによって異なります。

スライス

スライスは、高速チップ間相互接続（ICI）で接続された同じ TPU Pod 内にあるチップの集合体です。スライスは、TPU のバージョンに応じて、チップまたは TensorCore の観点で説明されます。

チップ形状とチップトポロジもスライス形状を指します。

マルチスライスとシングルスライス

マルチスライスはスライスのグループであり、チップ間相互接続（ICI）接続を超えて TPU 接続を拡張し、スライスを超えてデータを送信するためにデータセンターネットワーク（DCN）を利用します。各スライス内のデータは、ICI で引き続き送信されます。このハイブリッド接続を使用すると、マルチスライスでスライス間の並列処理が可能になり、単一のスライスで処理できるよりも多くの TPU コアを 1 つのジョブで使用できます。

TPU は、単一のスライスや複数のスライスでジョブを実行するために使用できます。続きの内容は、マルチスライスの概要をご覧ください。

TPU タイプ

相互接続された TPU チップの 4x4x4 トポロジ。これは 3D トポロジ（TPU v4 以降）にのみ適用されます。

SparseCore

SparseCore は、スパースオペレーションを使用するモデルを高速化するデータフロープロセッサです。主なユースケースは、エンベディングに大きく依存するレコメンデーションモデルの高速化です。v5p にはチップあたり 4 つの SparseCore が搭載されています。v6e にはチップあたり 2 つの SparseCore が搭載されています。SparseCore の使用方法の詳細については、大規模エンベディングモデル（LEM）用の SparseCore の詳細をご覧ください。XLA コンパイラで SparseCore を使用する方法は、XLA フラグを使用して制御します。詳細については、TPU XLA フラグをご覧ください。

Cloud TPU ICI の復元力

ICI の復元力により、キューブ間で TPU を接続する光リンクと光回路スイッチ（OCS）のフォールトトレランスが向上します（キューブ内の ICI 接続は影響を受けない銅リンクを使用しています）。ICI 復元力により、ICI 接続は OCS 障害と光 ICI 障害を回避して経路設定されます。その結果、TPU スライスのスケジューリング可用性が改善されますが、ICI のパフォーマンスが一時的に低下するというトレードオフがあります。

Cloud TPU v4 と v5p では、1 キューブ以上のスライスに対して ICI 復元力がデフォルトで有効になっています。次に例を示します。

v5p-128（アクセラレータタイプを指定する場合）
4x4x4（アクセラレータ構成を指定する場合）

TPU のバージョン

TPU チップのアーキテクチャは、厳密にいえば使用する TPU のバージョンによって異なります。また、TPU バージョンはそれぞれさまざまなスライスサイズと構成をサポートしています。システムアーキテクチャとサポートされている構成の詳細については、次のページをご覧ください。

TPU クラウドアーキテクチャ

Google Cloud を使用すると、TPU VM を介して TPU をコンピューティングリソースとして使用できます。ワークロードに TPU VM を直接使用することも、Google Kubernetes Engine または Vertex AI を介して使用することもできます。以降のセクションでは、TPU クラウドアーキテクチャの主なコンポーネントについて説明します。

TPU VM アーキテクチャ

TPU VM アーキテクチャを使用すると、SSH で TPU デバイスに物理的に接続されている VM に直接接続できます。TPU VM（ワーカー）は、基盤となる TPU にアクセスできる Linux を実行している仮想マシンです。VM への root アクセス権があるため、任意のコードを実行できます。コンパイラとランタイムデバッグログ、エラーメッセージにアクセスできます。

TPU VM アーキテクチャ

シングルホスト、マルチホスト、サブホスト

TPU ホストは、TPU ハードウェアに接続された物理コンピュータで実行される VM です。TPU ワークロードは 1 つ以上のホストを使用できます。

シングルホストワークロードは 1 つの TPU VM に制限されます。マルチホストワークロードは、トレーニングを複数の TPU VM に分散します。サブホストワークロードは、TPU VM 上の一部のチップを使用しません。

TPU ノードアーキテクチャ（非推奨）

TPU ノードアーキテクチャは、gRPC を介して TPU ホストと通信するユーザー VM で構成されています。このアーキテクチャを使用している場合、TPU ホストに直接アクセスできないため、トレーニングエラーや TPU エラーのデバッグが難しくなります。

TPU ノードアーキテクチャ

TPU ノードから TPU VM アーキテクチャへの移行

TPU ノードアーキテクチャを使用している TPU がある場合は、次の手順で TPU VM として識別、削除、再プロビジョニングを行います。

[TPU] ページに移動します。

TPU に移動

[アーキテクチャ] の見出しで、TPU とそのアーキテクチャを見つけます。アーキテクチャが「TPU VM」の場合は、対応の必要はありません。アーキテクチャが「TPU ノード」の場合は、TPU を削除して再プロビジョニングする必要があります。
TPU を削除して再プロビジョニングします。

TPU の削除と再プロビジョニングの手順については、TPU の管理をご覧ください。

TPU のアーキテクチャ

TPU の仕組み

CPU の仕組み

GPU の仕組み

TPU の仕組み

TPU システム アーキテクチャ

TPU チップ

TPU Pod

スライス

マルチスライスとシングル スライス

TPU タイプ

SparseCore

Cloud TPU ICI の復元力

TPU のバージョン

TPU クラウド アーキテクチャ

TPU VM アーキテクチャ

シングルホスト、マルチホスト、サブホスト

TPU ノード アーキテクチャ（非推奨）

TPU ノードから TPU VM アーキテクチャへの移行

次のステップ

TPU システムアーキテクチャ

マルチスライスとシングルスライス

TPU クラウドアーキテクチャ

TPU ノードアーキテクチャ（非推奨）