TPU のサービスの選択

次の表は、Cloud TPU サービス(Compute Engine、Google Kubernetes Engine、または Cloud Machine Learning Engine)のうち、ニーズに最も適しているのがどれかを判断するのに役立ちます。

Compute Engine

  • Compute Engine の Cloud TPU は、Cloud TPU を初めて使用するユーザーや、独自の Cloud TPU サービスを管理したい経験豊富な機械学習ユーザーにとって良い出発点です。次の内容が含まれます。
    • VM、TPU、Cloud Storage リソースを設定する ctpu ユーティリティ プログラム。
    • 最初の機械学習モデルのトレーニングをガイドするクイックスタート。
    • 画像分類、オブジェクト検出、言語翻訳モデルのチュートリアル。
    • TPU モデル処理におけるパフォーマンスのモニタリングとボトルネック解決のためのツール。

Kubernetes Engine

  • Google Kubernetes Engine の Cloud TPU は次の機能を提供します。
    • 簡単な設定と管理: Cloud TPU を使用するには、ワークロードを実行するための Compute Engine VM と、Cloud TPU の Classless Inter-Domain Routing(CIDR)ブロックが必要です。こうした VM と CIDR ブロックは、Google Kubernetes Engine によって自動的に設定、管理されます。
    • 最適化されたコスト: Google Kubernetes Engine は、VM と Cloud TPU ノードをワークロードとトラフィックに基づいて自動的にスケーリングします。料金が発生するのは、Cloud TPU と VM でワークロードを実行したときだけです。
    • 柔軟な使用法: ハードウェア アクセラレータ(CPU、GPU、または TPU)の変更は、ポッド仕様を 1 行変更するだけで済みます。
    • スケーラビリティ: Google Kubernetes Engine が提供する API(ジョブおよびデプロイ)は、数百個のポッドや Cloud TPU ノードに容易にスケーリングできます。
    • フォールト トレランス: Google Kubernetes Engine のジョブ API と TensorFlow チェックポイント メカニズムにより、Run-to-Completion セマンティクスが提供されます。VM インスタンスまたは Cloud TPU ノードで障害が発生した場合、チェックポイントの最新の状態からトレーニング ジョブが自動的に再実行されます。

ML Engine

  • Cloud Machine Learning Engine の Cloud TPU は、多少の ML 経験があり、Cloud Machine Learning Engine のマネージド サービスと API を活用したい場合に適しています。Cloud Machine Learning Engine は、以下の ML ワークフローのステージを管理します。
    • データで ML モデルをトレーニングする。
      • データでの ML モデルのトレーニング
      • モデルの精度の評価
      • ハイパーパラメータの調整
    • トレーニング済みモデルをデプロイする。
    • モデルに予測リクエストを送信する。
      • オンライン予測
      • バッチ予測
    • 継続的に予測をモニタリングする。
    • モデルとモデル バージョンを管理する。
このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...