この古いバージョンの AI Platform Training は非推奨になりました。2025 年 1 月 31 日を過ぎると Google Cloud で使用できなくなります。リソースを Vertex AI カスタムトレーニングに移行することで、AI Platform にはない新しい機械学習機能を利用できます。

コンテナの概要

AI Platform Training 上のコンテナは、Docker イメージ内でアプリケーションを実行可能にする機能です。独自のカスタムコンテナを作成し、そのコンテナを使用して AI Platform Training 上でジョブを実行できます。カスタムコンテナを作成する場合、さまざまな ML フレームワークと複数のバージョンだけでなく、AI Platform Training では通常サポートされていない ML 以外の依存関係、ライブラリ、バイナリも使用できます。

コンテナを使用したトレーニングの仕組み

任意の ML フレームワークで実装したトレーニングアプリケーションが、トレーニングプロセスの中核となります。

任意の ML フレームワークを使用して、モデルをトレーニングするアプリケーションを作成します。
カスタムコンテナを使用するかどうかを決定します。使用する依存関係をすでにサポートしているランタイムバージョンが存在する場合もありますが、そうでなければ、トレーニングジョブ用のカスタムコンテナを作成する必要があります。カスタムコンテナ内で、トレーニングアプリケーションとそのすべての依存関係をイメージにプリインストールします。このイメージを使用して、トレーニングジョブを実行します。
トレーニングと検証データを、AI Platform Training がアクセスできるソースに格納します。格納先は通常、Cloud Storage、Bigtable、または AI Platform Training で使用しているのと同じ Google Cloud プロジェクトに関連付けられている、別の Google Cloud ストレージサービスです。
アプリケーションを実行する準備が整ったら、Docker イメージをビルドして Container Registry に push し、AI Platform Training サービスがレジストリにアクセスできることを確認します。
gcloud ai-platform jobs submit training を使用してジョブを送信します。その際、引数を config.yaml ファイル内で指定するか、対応する gcloud フラグを指定します。
AI Platform Training トレーニングサービスにより、ジョブのリソースが設定されます。さらに、ジョブの構成に基づいて 1 つ以上の仮想マシン（「トレーニングインスタンス」と呼ばれます）が割り当てられます。トレーニングインスタンスを設定するには、トレーニングジョブの送信時に TrainingInput オブジェクトの一部として指定したカスタムコンテナを使用します。
トレーニングサービスで Docker イメージを実行します。その際、トレーニングジョブの作成時に指定したコマンドライン引数が渡されます。
実行中のジョブに関する情報を取得するには、次の方法があります。
- Cloud Logging を使用します。Google Cloud コンソールの AI Platform Training ジョブの詳細ページに、ジョブのログへのリンクがあります。
- ジョブの詳細をリクエストするか、gcloud コマンドラインツール（具体的には gcloud ai-platform jobs stream-logs）を使用してログのストリーミングを実行します。
- projects.jobs.get メソッドを使用して、トレーニングサービスに対するステータスリクエストをプログラムで実行します。詳細については、トレーニングジョブのモニタリング方法をご覧ください。
トレーニングジョブが正常に終了するか、回復不能なエラーが発生すると、AI Platform Training はすべてのジョブプロセスを停止してリソースをクリーンアップします。

カスタムコンテナの利点

カスタムコンテナを使用すると、アプリケーションに必要なすべての依存関係を指定してプリインストールできます。

起動時間が短縮されます。依存関係がプリインストールされたカスタムコンテナを使用すれば、トレーニングアプリケーションが起動時に依存関係をインストールする必要がなくなるため、その分の時間を節約できます。
任意の ML フレームワークを使用できます。使用する ML フレームワークをサポートしている AI Platform Training ランタイムバージョンが見つからなければ、そのフレームワークをインストールするカスタムコンテナを作成し、それを使用して AI Platform Training 上でジョブを実行できます。たとえば、PyTorch を使用してトレーニングできます。
分散トレーニングがサポートされます。カスタムコンテナでは、任意の ML フレームワークを使用して分散トレーニングを行うことができます。
最新バージョンを使用してください。ML フレームワークの最新ビルドやマイナーバージョンを使用することもできます。たとえば、tf-nightly でトレーニングするためのカスタムコンテナをビルドできます。

カスタムコンテナでのハイパーパラメータ調整

AI Platform Training 上でハイパーパラメータ調整を行うには、目標指標を指定し、その指標を最小化または最大化するかどうかを指定します。たとえば、モデルの精度を最大化する必要がある場合もあれば、モデルの損失を最小化しなければならない場合もあります。また、調整するハイパーパラメータと各ハイパーパラメータの目標値のリストも指定します。AI Platform Training ではトレーニングアプリケーションのトライアルを複数回行い、トライアルが完了するたびにハイパーパラメータを追跡して調整します。ハイパーパラメータ調整ジョブが完了すると、AI Platform Training は、ハイパーパラメータを最も効果的に構成するための値と、各トライアルのサマリーを報告します。

カスタムコンテナのハイパーパラメータ調整を行うには、次の手順を行います。

Dockerfile: cloudml-hypertune をインストールします。
トレーニングコード:
- cloudml-hypertune を使用し、そのヘルパー関数 report_hyperparameter_tuning_metric を呼び出して各トライアルの結果を報告します。
- 各ハイパーパラメータのコマンドライン引数を追加し、パーサー（argparse など）を使用して引数を解析します。
ジョブリクエスト: TrainingInput オブジェクトに HyperparameterSpec を追加します。

カスタムコンテナでのハイパーパラメータ調整を使用したトレーニングの例、または AI Platform Training でのハイパーパラメータ調整の仕組みをご覧ください。

カスタムコンテナでの GPU の使用

カスタムコンテナで GPU を使用してトレーニングする場合、いくつかの特殊な要件を満たす必要があります。CPU を使用したトレーニングに使用するものとは異なる Docker イメージをビルドする必要があります。

Docker イメージに CUDA ツールキットと cuDNN をプリインストールします。この要件に対処する方法としては、ベースイメージとして nvidia/cuda イメージを使用することをおすすめします。このイメージには、バージョンが一致する CUDA ツールキットと cuDNN がプリインストールされているため、関連する環境変数を正しく設定するのに役立ちます。
Docker イメージに、トレーニングアプリケーションと必須の ML フレームワークおよびその他の依存関係をインストールします。

GPU を使用してトレーニングする場合の Dockerfile の例をご覧ください。

次のステップ

トレーニングジョブにカスタムコンテナを使用する方法を理解する。
カスタムコンテナを使用した分散トレーニングについて理解する。

AI Platform でのコンテナによるトレーニング

コンテナの概要

コンテナを使用したトレーニングの仕組み

カスタム コンテナの利点

カスタム コンテナでのハイパーパラメータ調整

カスタム コンテナでの GPU の使用

次のステップ

カスタムコンテナの利点

カスタムコンテナでのハイパーパラメータ調整

カスタムコンテナでの GPU の使用