TPU のリージョンとゾーン

概要

TPU タイプの違いは主に、料金、パフォーマンス、メモリ容量、ゾーンの可用性にあります。

Google Cloud では、ゾーンに分割されたリージョンを使用して、物理的なコンピューティング リソースの地理的なロケーションを定義します。たとえば、us-central1 リージョンは米国の地理的な中心付近のリージョンを示します。TPU VM を作成するときに、作成するゾーンを指定します。リージョン リソース、ゾーンリソースについて詳しくは、Compute Engine のグローバル リソース、リージョン リソース、ゾーンリソースのドキュメントをご覧ください。

TPU 構成は、次の表に示すゾーンで作成できます。

US

TPU タイプ(v2) TPU v2 コア数 利用可能なゾーン
v2-8 8 us-central1-b
us-central1-c
us-central1-f
v2-32 32 us-central1-a
v2-128 128 us-central1-a
v2-256 256 us-central1-a
v2-512 512 us-central1-a
TPU タイプ(v3) TPU v3 コア数 利用可能なゾーン
v3-8 8 us-central1-a
us-central1-b
us-central1-f
TPU タイプ(v4) TPU v4 チップ 利用可能なゾーン
すべての v4 構成 スライスサイズによって異なる us-central2-b
TPU タイプ(v5e) TPU v5e チップ 利用可能なゾーン
すべての v5litepod 構成 スライスサイズによって異なる us-central1-a
us-east5-a
us-east5-b
us-east5-c
us-south1-a
us-west1-c
us-west4-a
us-west4-b
TPU タイプ(v5p) TPU v5p チップ 利用可能なゾーン
すべての v5p 構成 スライスサイズによって異なる us-east5-a
us-east5-c

ヨーロッパ

TPU タイプ(v2) TPU v2 コア数 利用可能なゾーン
v2-8 8 europe-west4-a
v2-32 32 europe-west4-a
v2-128 128 europe-west4-a
v2-256 256 europe-west4-a
v2-512 512 europe-west4-a
TPU タイプ(v3) TPU v3 コア数 利用可能なゾーン
v3-8 8 europe-west4-a
v3-32 32 europe-west4-a
v3-64 64 europe-west4-a
v3-128 128 europe-west4-a
v3-256 256 europe-west4-a
v3-512 512 europe-west4-a
v3-1024 1024 europe-west4-a
v3-2048 2048 europe-west4-a
TPU タイプ(v5e) TPU v5e チップ 利用可能なゾーン
v5lite-1 1 europe-west4-b
v5lite-4 4 europe-west4-b
v5lite-8 8 europe-west4-b
すべての v5litepod 構成 スライスサイズによって異なる europe-west1-b
europe-west4-a
europe-west4-b

アジア太平洋

TPU タイプ(v2) TPU v2 コア数 利用可能なゾーン
v2-8 8 asia-east1-c
TPU タイプ(v5e) TPU v5e チップ 利用可能なゾーン
すべての v5litepod 構成 スライスサイズによって異なる asia-southeast1-b

チップ数またはコア数の多い TPU タイプについては、利用可能な数量が限られています。チップ数またはコア数の少ない TPU タイプの方が利用可能性が高くなります。

料金とパフォーマンスとのトレードオフの計算

使用する TPU タイプを決定するには、Cloud TPU チュートリアルを使用して実際のアプリケーションと同様のモデルのトレーニングをテストできます。

v2-8 または v3-8 のそれぞれの TPU タイプでチュートリアルを実施し、完全なトレーニングで使用するステップ数の 5~10% でトレーニングを実行します。その結果から、各 TPU タイプでモデルに対して実際のステップ数を実行した場合にかかる時間がわかります。

パフォーマンスは TPU タイプのスケールに応じて線形的に向上します。したがって、TPU タイプ v2-8 または v3-8 での所要時間がわかれば、チップ数またはコア数の多い TPU タイプでモデルを実行した場合、タスクの所要時間をどれだけ短縮できるかを評価できます。

たとえば、TPU タイプ v2-8 では 10,000 ステップに 60 分かかる場合、v2-32 ノードでは同じタスクの所要時間が約 15 分に短縮されることになります。

いくつかの異なる TPU タイプ別にモデルのおよそのトレーニング時間がわかっていれば、VM / TPU の費用とトレーニング時間を比較検討することで、料金とパフォーマンスとの最適なトレードオフを評価できます。

TPU タイプ別の Cloud TPU および関連する Compute Engine VM の費用の違いを確認するには、TPU の料金ページをご覧ください。

TPU タイプの指定

使用するフレームワークに関係なく、TPU を起動する際に accelerator-type パラメータを使用して v2 または v3 のTPU タイプを指定します。TPU v4 以降では、AcceleratorType または AcceleratorConfig を使用してタイプとサイズを指定できます。詳細については、TPU のバージョンをご覧ください。コマンドの例は、TPU の管理に表示されています。

次のステップ

  • 各リージョンの TPU の料金については、料金ページをご覧ください。
  • TPU アーキテクチャの詳細については、システム アーキテクチャ ページをご覧ください。
  • TPU の用途を参照して、Cloud TPU に最適なモデルの種類について確認する。