このページでは、Cloud TPU の概要を説明し、Google Kubernetes Engine での Cloud TPU の使用方法に関する情報の参照先を紹介します。Tensor Processing Unit(TPU)は Google が独自に開発したアプリケーション固有の集積回路(ASIC)であり、TensorFlow 機械学習ワークロードの高速化に使用されます。
概要
Cloud TPU の管理に GKE を使用すると、次のようなメリットがあります。
設定と管理が簡単: Cloud TPU を使用するには、ワークロードを実行する Compute Engine VM と Cloud TPU の Classless Inter-Domain Routing(CIDR)ブロックが必要です。VM と CIDR ブロックの設定と管理は GKE が自動的に行います。
コストを最適化: GKE は、VM と Cloud TPU ノードをワークロードとトラフィックに基づいて自動的にスケーリングします。料金が発生するのは、Cloud TPU と VM でワークロードを実行したときだけです。
柔軟な使用: ポッド仕様で 1 行を変更するだけで、別のハードウェア アクセラレータ(CPU、GPU、TPU)をリクエストできます。
kind: Pod spec: containers: - name: example-container resources: limits: cloud-tpus.google.com/v2: 8 # See the line above for TPU, or below for CPU / GPU. # cpu: 2 # nvidia.com/gpu: 1
スケーラビリティ: GKE には、数百単位のポッドや Cloud TPU ノードに容易にスケーリングできる API(ジョブおよびデプロイ)があります。
フォールト トレランス: GKE のジョブ API と TensorFlow チェックポイント メカニズムにより、Run-to-Completion セマンティクスが提供されます。VM インスタンスまたは Cloud TPU ノードで障害が発生すると、トレーニング ジョブがチェックポイントから読み込まれた最新の状態で自動的に再実行されます。
次のステップ
- Cloud TPU ResNet のチュートリアルを参照する。このチュートリアルでは、Cloud TPU と GKE を使用して TensorFlow ResNet-50 モデルをトレーニングする方法について説明しています。
- または、クイックガイドに沿って GKE を使用して Cloud TPU を設定する。
- 機械学習タスクで Cloud TPU を使用する際のおすすめの方法を確認する。