TensorFlow トレーニング アプリケーションの開発

Cloud Machine Learning Engine は、既存の TensorFlow トレーニング アプリケーションをほとんどまたはまったく変更を加えずに実行できます。トレーニング アプリケーションの開発は、複雑なプロセスであり、このドキュメントでは扱いません。TensorFlow の学習を始めるには、スタートガイドをご覧ください。

TensorFlow の基礎を理解したら、優れた例を学ぶことで、トレーニング アプリケーションについて詳しく知ることができます。

このドキュメントに付属のサンプルを確認してください。これらの TensorFlow サンプルは、Cloud ML Engine で適切に動作するように特別に開発されました。

最初に、米国国勢調査データセットを使用して所得水準を予測する一連の分類サンプルを学習します。セット内のサンプル アプリケーションはほぼ同じ機能を持ちますが、異なる TensorFlow API を使用しています。サンプルを確認して、同じ結果を得るために使用する複数の方法を比較することで、多くのことを学べます。

サンプルを確認する際には、次の点に特に注意してください。

  • トレーニング ジョブごとに変わる可能性のある重要な情報を得るために、コマンドライン引数をどのように処理しているか。Cloud ML Engine は、クラウドで動作するトレーニング アプリケーションの各レプリカに引数を渡します。こうした引数はトレーニング ジョブを開始するときに指定します。コマンドライン引数は、実行時にアプリケーションと通信するための主要メカニズムです。

  • 分散処理クラスタをセットアップするために、TF_CONFIG 環境変数をどのように使用しているか。Cloud ML Engine は、この方法を使用して、割り当てられたトレーニング インスタンスで実行されるトレーニング アプリケーションの個々のレプリカにジョブ情報を伝えます。TF_CONFIG からの詳細の取得に関するガイドをご覧ください。

  • 1 つのアプリケーションでさまざまな種類のタスク(マスター、パラメータ サーバー、ワーカー)を考慮して、どのように分散処理を管理しているか。

  • チェックポイントと計算グラフのバリエーションを使用して、トレーニング プロセス(特にトレーニング、評価、エクスポート)のさまざまな段階にどのように対応しているか。

  • モデルのトレーニングとエクスポートに備えて、入力データと出力データをどのように定義しているか。

次のステップ

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

TensorFlow 用 Cloud ML Engine