TPU にアクセスできるサービス

アプリケーションは Google Cloud 上のコンテナ、インスタンス、サービスから TPU ノードにアクセスできます。アプリケーションは VPC ネットワークを介して TPU ノードに接続する必要があります。

TPU ノードにアクセスできる Google Cloud サービスは以下のとおりです。 要件に最適な特性を持つサービスを選択してください。

Compute Engine

  • Compute Engine の Cloud TPU は、Cloud TPU を初めて使用するユーザーの出発点としても、独自の Cloud TPU サービスを管理する必要がある経験豊富な機械学習ユーザーにも最適です。たとえば次のものを利用できます。
    • VM、TPU、Cloud Storage リソースを設定する ctpu ユーティリティ プログラム。
    • 最初の機械学習モデルのトレーニングをガイドするクイックスタート。
    • 画像分類、オブジェクト検出、言語翻訳モデルのチュートリアル。
    • TPU モデル処理におけるパフォーマンスのモニタリングとボトルネック解決のためのツール。

Kubernetes Engine

  • Google Kubernetes Engine の Cloud TPU は次の機能を提供します。
    • 簡単な設定と管理: Cloud TPU を使用するには、ワークロードを実行するための Compute Engine VM と、Cloud TPU の Classless Inter-Domain Routing(CIDR)ブロックが必要です。こうした VM と CIDR ブロックは、Google Kubernetes Engine によって自動的に設定、管理されます。
    • コストを最適化: Google Kubernetes Engine はワークロードとトラフィックに基づいて自動的に VM をスケーリングします。Cloud TPU と VM で料金が発生するのは、これらを使用してワークロードを実行したときだけです。
    • 柔軟な使用法: ポッド仕様を 1 行変更するだけで、ハードウェア アクセラレータ(CPU、GPU、または TPU)を変更できます。
    • スケーラビリティ: Google Kubernetes Engine には、数百単位のポッドや Cloud TPU ノードに容易にスケーリングできる API(ジョブおよびデプロイ)があります。
    • フォールト トレランス: Google Kubernetes Engine のジョブ API と TensorFlow チェックポイント メカニズムにより、Run-to-Completion セマンティクスが提供されます。VM インスタンスまたは Cloud TPU ノードで障害が発生した場合、チェックポイントの最新の状態からトレーニング ジョブが自動的に再実行されます。

AI Platform

  • ML についてある程度の経験があり、AI Platform マネージド サービスと API のメリットを生かしたい場合は、AI Platform の Cloud TPU から始めることをおすすめします。AI Platform では以下の ML ワークフロー ステージが管理されます。
    • データで ML モデルをトレーニングする。
      • データでの ML モデルのトレーニング
      • モデルの精度の評価
      • ハイパーパラメータの調整
    • トレーニング済みモデルをデプロイする。
    • モデルに予測リクエストを送信する。
      • オンライン予測
      • バッチ予測
    • 継続的に予測をモニタリングする。
    • モデルとモデル バージョンを管理する。