カスタムトレーニングの概要

Vertex AI では、大規模なモデルトレーニングの運用を可能にするマネージドトレーニングサービスを利用できます。Vertex AI を使用すると、Google Cloud インフラストラクチャで、あらゆる ML フレームワークに基づくトレーニングアプリケーションを実行できます。Vertex AI には、次の一般的な ML フレームワークについて、モデルのトレーニングと提供の準備プロセスを簡素化するサポートも統合されています。

このページでは、Vertex AI でのカスタムトレーニングのメリット、関連するワークフロー、利用可能なさまざまなトレーニングオプションについて説明します。

Vertex AI による大規模なトレーニングの運用

モデルのトレーニングの運用にはさまざまな課題があります。課題としては、モデルのトレーニングに必要な時間と費用、コンピューティングインフラストラクチャの管理に必要なスキルの深さ、エンタープライズレベルのセキュリティを提供する必要性などがあります。Vertex AI は、こうした課題に対処すると同時に、他にも多くのメリットをもたらします

フルマネージドのコンピューティングインフラストラクチャ

Vertex AI でのモデルトレーニングは、物理インフラストラクチャの管理を必要としないフルマネージドサービスです。サーバーのプロビジョニングや管理を行うことなく ML モデルをトレーニングできます。お支払は、使用したコンピューティングリソース分だけです。Vertex AI では、ジョブのロギング、キューイング、モニタリングも行われます。

高パフォーマンス

Vertex AI トレーニングジョブは ML モデルのトレーニング用に最適化されており、トレーニングアプリケーションを GKE クラスタで直接実行するよりも高速なパフォーマンスを実現します。また、Cloud Profiler を使用して、トレーニングジョブのパフォーマンスのボトルネックを特定し、デバッグすることもできます。

分散トレーニング

Rudction Server は、Vertex AI の all-reduce アルゴリズムであり、NVIDIA 画像処理装置（GPU）上でのマルチノード分散トレーニングのスループットを向上させ、レイテンシを削減できます。この最適化により、大規模なトレーニングジョブを遂行する時間と費用を削減できます。

ハイパーパラメータの最適化

ハイパーパラメータチューニングジョブでは、さまざまなハイパーパラメータ値を使用して、トレーニングアプリケーションのトライアルを何度も実行します。テストする値の範囲を指定すると、Vertex AI はその範囲内でモデルに最適な値を検出します。

エンタープライズセキュリティ

Vertex AI は、次のエンタープライズセキュリティ機能を備えています。

ネットワークアクセスを制限する VPC ピアリング。
データの引き出しリスクを軽減する VPC Service Controls。
データ保護に関連する特定のコンプライアンス要件や規制要件を満たすことに役立つ顧客管理の暗号鍵。
サービスアカウントのアクセスを詳細に制御するための Identity and Access Management。
単一テナントプロジェクトの境界によるデータの分離。

ML オペレーション（MLOps）のインテグレーション

Vertex AI には、次の目的に使用できる統合された MLOps ツールと機能が用意されています。

エンドツーエンドの ML ワークフローをオーケストレートする。
特徴量エンジニアリングを実行する。
テストを実施する。
モデルの管理と反復処理を行う。
ML メタデータを追跡する。
モデルの品質をモニタリング、評価する。

カスタムトレーニングのワークフロー

次の図では、Vertex AI でのカスタムトレーニングワークフローの概要を示します。以降のセクションでは、各ステップを詳しく説明します。

カスタムトレーニングワークフロー

トレーニングデータの読み込みと準備

最適なパフォーマンスとサポートを実現するために、次のいずれかの Google Cloud サービスをデータソースとして使用します。

トレーニングパイプラインを使用してモデルをトレーニングする場合は、データソースとして Vertex AI マネージドデータセットを指定することもできます。同じデータセットを使用してカスタムモデルと AutoML モデルをトレーニングすると、2 つのモデルのパフォーマンスを比較できます。

トレーニングアプリケーションを準備する

Vertex AI で使用するトレーニングアプリケーションを準備する手順は次のとおりです。

Vertex AI のトレーニングコードのベストプラクティスを実装します。
使用するコンテナイメージのタイプを決定します。
選択したコンテナイメージのタイプに基づいて、トレーニングアプリケーションをサポートされている形式にパッケージ化します。

トレーニングコードのベストプラクティスを実装する

トレーニングアプリケーションでは、Vertex AI のトレーニングコードのベストプラクティスを実装する必要があります。これらのベストプラクティスは、トレーニングアプリケーションの以下の機能に関連します。

Google Cloud サービスへのアクセス。
入力データの読み込み。
テスト追跡の自動ロギングを有効にする。
モデルアーティファクトをエクスポートする。
Vertex AI の環境変数を使用する。
VM の再起動に対する復元力を確保する。

コンテナタイプを選択する

Vertex AI は、トレーニングアプリケーションを Docker コンテナイメージ内で実行します。Docker コンテナイメージは、コードとすべての依存関係が組み込まれた自己完結型のソフトウェアパッケージで、ほぼすべてのコンピューティング環境で実行できます。使用するビルド済みコンテナイメージの URI を指定するか、トレーニングアプリケーションと依存関係がプリインストールされているカスタムコンテナイメージを作成してアップロードできます。

次の表では、ビルド済みコンテナイメージとカスタムコンテナイメージの違いを示します。

仕様	ビルド済みコンテナイメージ	カスタムコンテナイメージ
ML フレームワーク	各コンテナイメージは ML フレームワークに固有のものです。	任意の ML フレームワークを使用するか、何も使用しません。
ML フレームワークのバージョン	各コンテナイメージは ML フレームワークのバージョンに固有のものです。	マイナーバージョンやナイトリービルドなど、どの ML フレームワークバージョンでも使用できます。
アプリケーションの依存関係	ML フレームワークに共通の依存関係がプリインストールされています。トレーニングアプリケーションにインストールする追加の依存関係を指定できます。	トレーニングアプリケーションに必要な依存関係をプリインストールします。
アプリケーションの配信形式	Python ソースディストリビューション。単一の Python ファイル。	カスタムコンテナイメージにトレーニングアプリケーションをプリインストールします。
セットアップの手間	低	高
推奨する用途	ビルド済みのコンテナイメージがある ML フレームワークとフレームワークバージョンに基づく Python トレーニングアプリケーション。	より大きなカスタマイズとコントロール。 Python 以外のトレーニングアプリケーション。プライベートまたはカスタムの依存関係。ビルド済みのコンテナイメージがない ML フレームワークやフレームワークバージョンを使用するトレーニングアプリケーション。

トレーニングアプリケーションをパッケージ化する

使用するコンテナイメージのタイプを決定した後は、コンテナイメージのタイプに基づいてトレーニングアプリケーションを以下のいずれかの形式にパッケージ化します。

ビルド済みコンテナで使用する 1 つの Python ファイル

トレーニングアプリケーションを 1 つの Python ファイルとして記述し、Vertex AI SDK for Python を使用して CustomJob クラスまたは CustomTrainingJob クラスを作成します。この Python ファイルは、Python ソースディストリビューションにパッケージ化され、ビルド済みのコンテナイメージにインストールされます。トレーニングアプリケーションを 1 つの Python ファイルとして提供することは、プロトタイピングに適しています。本番環境のトレーニングアプリケーションでは、トレーニングアプリケーションを複数のファイルに配置することになると予想されます。
ビルド済みコンテナで使用する Python ソースディストリビューション

1 つ以上の Python ソースディストリビューションにトレーニングアプリケーションをパッケージ化し、Cloud Storage バケットにアップロードします。Vertex AI は、トレーニングジョブの作成時にソースディストリビューションをビルド済みコンテナイメージにインストールします。
カスタムコンテナイメージ

トレーニングアプリケーションと依存関係がプリインストールされた独自の Docker コンテナイメージを作成し、Artifact Registry にアップロードします。トレーニングアプリケーションが Python で記述されている場合は、1 つの Google Cloud CLI コマンドでこれらの手順を実施できます。

トレーニングジョブを構成する

Vertex AI トレーニングジョブは、次のタスクを実行します。

1 つ（単一ノードトレーニング）または複数（分散トレーニング）の仮想マシン（VM）をプロビジョニングします。
プロビジョニングされた VM でコンテナ化されたトレーニングアプリケーションを実行します。
トレーニングジョブの完了後に VM を削除します。

Vertex AI には、トレーニングアプリケーションを実行するために 3 種類のトレーニングジョブが用意されています。

カスタムジョブ

カスタムジョブ（CustomJob）はトレーニングアプリケーションを実行します。ビルド済みのコンテナイメージを使用している場合、モデルアーティファクトは指定された Cloud Storage バケットに出力されます。カスタムコンテナイメージの場合、トレーニングアプリケーションは他の場所にモデルアーティファクトを出力することもできます。
ハイパーパラメータチューニングジョブ

ハイパーパラメータチューニングジョブ（HyperparameterTuningJob）は、最適なパフォーマンスのハイパーパラメータ値でモデルアーティファクトを生成するまで、さまざまなハイパーパラメータ値を使用して、トレーニングアプリケーションのトライアルを何度も実行します。テストするハイパーパラメータ値の範囲と最適化する指標を指定します。
トレーニングパイプライン

トレーニングパイプライン（CustomTrainingJob）は、カスタムジョブまたはハイパーパラメータチューニングジョブを実行し、必要に応じてモデルアーティファクトを Vertex AI にエクスポートしてモデルリソースを作成します。データソースとして Vertex AI マネージドデータセットを指定できます。

トレーニングジョブを作成するときに、トレーニングアプリケーションの実行に使用するコンピューティングリソースを指定し、コンテナ設定を構成します。

コンピューティングの構成

トレーニングジョブに使用するコンピューティングリソースを指定します。Vertex AI は、トレーニングジョブが 1 つの VM で実行される単一ノードトレーニングと、トレーニングジョブが複数の VM で実行される分散トレーニングをサポートしています。

トレーニングジョブに指定できるコンピューティングリソースは次のとおりです。

VM マシンタイプ

マシンタイプによって、CPU、メモリサイズ、帯域幅が異なります。
画像処理装置（GPU）

A2 または N1 タイプの VM には、1 つ以上の GPU を追加できます。トレーニングアプリケーションが GPU を使用するように設計されている場合、GPU を追加すると、パフォーマンスが大幅に向上します。
Tensor Processing Unit（TPU）

TPU は、ML ワークロードの高速化を目的として設計されています。トレーニングに TPU VM を使用する場合は、ワーカープールを 1 つだけ指定できます。そのワーカープールは、レプリカを 1 つだけ持つことができます。
ブートディスク

ブートディスクには SSD（デフォルト）または HDD を使用できます。トレーニングアプリケーションがディスクの読み取りと書き込みを行う場合は、SSD を使用するとパフォーマンスを改善できます。トレーニングアプリケーションがディスクに書き込む一時データの量に基づいて、ブートディスクのサイズを指定することもできます。ブートディスクのサイズは、100 GiB（デフォルト）～64,000 GiB です。ワーカープール内の VM は、すべて同じ種類とサイズのブートディスクを使用しなければなりません。

コンテナの構成

ビルド済みのコンテナイメージを使用するか、カスタムコンテナイメージを使用するかによって、異なるコンテナ構成を作成する必要があります。

ビルド済みコンテナの構成:
- 使用するビルド済みコンテナイメージの URI を指定します。
- トレーニングアプリケーションが Python ソースディストリビューションとしてパッケージ化されている場合は、パッケージが置かれている Cloud Storage URI を指定します。
- トレーニングアプリケーションのエントリポイントモジュールを指定します。
- 省略可: トレーニングアプリケーションのエントリポイントモジュールに渡すコマンドライン引数のリストを指定します。
カスタムコンテナ構成:
- カスタムコンテナイメージの URI を指定します。Artifact Registry または Docker Hub の URI を使用できます。
- 省略可: コンテナイメージの ENTRYPOINT 手順または CMD 手順をオーバーライドします。

トレーニングジョブを作成する

データとトレーニングアプリケーションの準備ができたら、次のいずれかのトレーニングジョブを作成して、トレーニングアプリケーションを実行します。

トレーニングジョブの作成には、Google Cloud コンソール、Google Cloud CLI、Vertex AI SDK for Python、Vertex AI API のいずれかを使用できます。

（省略可）Vertex AI にモデルアーティファクトをインポートする

トレーニングアプリケーションは、1 つ以上のモデルアーティファクトを指定の場所（通常は Cloud Storage バケット）に出力します。モデルアーティファクトから Vertex AI で予測を取得する前に、まずモデルアーティファクトを Vertex AI Model Registry にインポートします。

トレーニング用のコンテナイメージと同様、Vertex AI では、予測にビルド済みコンテナイメージを使用するか、カスタムコンテナイメージを使用するかを選択できます。お使いの ML フレームワークとフレームワークバージョンで予測用のビルド済みコンテナイメージを利用できる場合は、ビルド済みコンテナイメージの使用をおすすめします。

次のステップ

モデルから予測を取得する。
モデルを評価する。
Hello カスタムトレーニングチュートリアルを試して、TensorFlow Keras 画像分類モデルを Vertex AI でトレーニングするための手順を確認する。

カスタム トレーニングの概要

Vertex AI による大規模なトレーニングの運用

フルマネージドのコンピューティング インフラストラクチャ

高パフォーマンス

分散トレーニング

ハイパーパラメータの最適化

エンタープライズ セキュリティ

ML オペレーション（MLOps）のインテグレーション

カスタム トレーニングのワークフロー

トレーニング データの読み込みと準備

トレーニング アプリケーションを準備する

トレーニング コードのベスト プラクティスを実装する