アプリケーションは Google Cloud 上のコンテナ、インスタンス、サービスから TPU ノードにアクセスできます。アプリケーションは VPC ネットワークを介して TPU ノードに接続する必要があります。
TPU ノードにアクセスできる Google Cloud サービスは以下のとおりです。 要件に最適な特性を持つサービスを選択してください。
Compute Engine
- Compute Engine の Cloud TPU は、Cloud TPU を初めて使用するユーザーや、独自の Cloud TPU サービスを管理したい経験豊富な機械学習ユーザーにとっての出発点として最適です。たとえば次のものを利用できます。
- VM、TPU、Cloud Storage リソースを設定する
ctpu
ユーティリティ プログラム。 - 最初の機械学習モデルのトレーニングをガイドするクイックスタート。
- 画像分類、オブジェクト検出、言語翻訳モデルのチュートリアル。
- TPU モデル処理におけるパフォーマンスのモニタリングとボトルネック解決のためのツール。
- VM、TPU、Cloud Storage リソースを設定する
Kubernetes Engine
- Google Kubernetes Engine の Cloud TPU は次の機能を提供します。
- 簡単な設定と管理: Cloud TPU を使用するには、ワークロードを実行するための Compute Engine VM と、Cloud TPU の Classless Inter-Domain Routing(CIDR)ブロックが必要です。こうした VM と CIDR ブロックは、Google Kubernetes Engine によって自動的に設定、管理されます。
- コストを最適化: Google Kubernetes Engine はワークロードとトラフィックに基づいて自動的に VM をスケーリングします。Cloud TPU と VM で料金が発生するのは、これらを使用してワークロードを実行したときだけです。
- 柔軟な使用法: ポッド仕様を 1 行変更するだけで、ハードウェア アクセラレータ(CPU、GPU、または TPU)を変更できます。
- スケーラビリティ: Google Kubernetes Engine には、数百単位のポッドや Cloud TPU ノードに容易にスケーリングできる API(ジョブおよびデプロイ)があります。
- フォールト トレランス: Google Kubernetes Engine のジョブ API と TensorFlow チェックポイント メカニズムにより、Run-to-Completion セマンティクスが提供されます。VM インスタンスまたは Cloud TPU ノードで障害が発生した場合、チェックポイントの最新の状態からトレーニング ジョブが自動的に再実行されます。
AI Platform
- ML についてある程度の経験があり、AI Platform マネージド サービスと API のメリットを生かしたい場合は、AI Platform の Cloud TPU から始めることをおすすめします。AI Platform では以下の ML ワークフロー ステージが管理されます。
- データで ML モデルをトレーニングする。
- データでの ML モデルのトレーニング
- モデルの精度の評価
- ハイパーパラメータの調整
- トレーニング済みモデルをデプロイする。
- モデルに予測リクエストを送信する。
- オンライン予測
- バッチ予測
- 継続的に予測をモニタリングする。
- モデルとモデル バージョンを管理する。
- データで ML モデルをトレーニングする。