デベロッパー

Vertex AI で ML トレーニングワークフローを合理化

2021年6月17日

Google Cloud Japan Team

※この投稿は米国時間 2021 年 6 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。

多くの方が機械学習（ML）にローカルコンピューティング環境を使用したことがあるかと思います。GPU 搭載のノートブックやデスクトップコンピュータを使用したことがある方も多いのではないでしょうか。問題によっては、ローカル環境で十分な場合もあります。また、ローカル環境には柔軟性が高いというメリットもあります。Python と JupyterLab をインストールするだけで開始できます。

しかし、その次に直面するのは、モデルトレーニングに非常に時間がかかりすぎるという状況です。新たなレイヤを追加し、一部のパラメータを変更し、精度が向上したか確認するのに 9 時間も待てるでしょうか。答えはノーです。クラウドコンピューティング環境に移行することで、さまざまな強力なマシンタイプを利用できるようになります。クラウドでは、同じコードでも桁外れの速さで命令を実行することができるでしょう。

Deep Learning VM images（DLVM）を使用すれば、追加設定を行わずに ML フレームワーク、ドライバ、アクセラレータ、ハードウェアのすべてをスムーズに連携させることが可能です。また、ノートブックインスタンスも利用できます。このインスタンスは DLVM に基づいており、JupyterLab にも容易にアクセスできます。

Vertex AI カスタムトレーニングサービスを利用するメリット

クラウドで VM を使用すると、ML チームの生産性が大幅に向上します。さらには、Vertex AI の新しいカスタムトレーニングサービスを活用することもできるようになります。このサービスでは、ノートブックインスタンスでモデルを直接トレーニングするのではなく、ノートブックからトレーニングジョブを送信できます。

トレーニングジョブは自動的にコンピューティングリソースをプロビジョニングし、ジョブが完了するとプロビジョニングを解除します。高性能の仮想マシン構成が実行されたままになってしまう心配もありません。

トレーニングサービスはアーキテクチャのモジュール化をサポートします。本記事で後ほど詳しくご説明しますが、トレーニングコードをコンテナに格納してポータブルユニットとして動作させることができます。トレーニングコードは入力データの場所やハイパーパラメータなどのパラメータをコンテナに渡すことができるため、再デプロイせずにさまざまなシナリオに対応できます。また、トレーニングコードはトレーニング済みモデルのファイルをエクスポートできるため、一部を切り離して他の AI サービスと連携できます。

このトレーニングサービスは再現性もサポートします。それぞれのトレーニングジョブはトラッキングされ、入出力、使用されたコンテナイメージが記録されます。ログメッセージは Cloud Logging で確認でき、実行中のジョブをモニタリングすることもできます。

また、トレーニングサービスは分散トレーニングもサポートしているため、複数のノード間でモデルを並行してトレーニングできます。これにより、単一の VM インスタンスで実行するよりもトレーニング時間を短縮できます。

サンプルノートブック

このブログ投稿では、Vertex AI のサンプルコードスニペットを例にして、カスタムトレーニングサービスを使用する方法について説明します。これから使用するノートブックでは、カスタムトレーニングとオンライン予測のエンドツーエンド処理を取り上げます。使用するノートブックは ai-platform-samples リポジトリの一部であり、Vertex AI の使用方法に関して多数の有用なサンプルが含まれています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/pasted_image_0_22.max-1000x1000.max-1000x1000.png

図 1: カスタムトレーニングとオンライン予測ノートブック

カスタムモデルトレーニングの概要

カスタムモデルのトレーニングサービスは、TensorFlow, PyTorch、scikit-learn、XGBoost などの一般的なフレームワークをサポートするビルド済みのコンテナイメージを提供します。このコンテナを使用することで、トレーニングコードと適切なコンテナイメージをトレーニングジョブに提供できます。

また、カスタムコンテナイメージを作成することも可能です。Python 以外の言語や、ビルド済みのコンテナイメージがサポートしていない ML フレームワークを使用している場合は、カスタムコンテナイメージを使用することをおすすめします。このブログ投稿では、GPU をサポートするビルド済み TensorFlow 2 イメージを使用します。

Console、gcloud CLI、REST API、Node.js / Python SDK など、カスタムトレーニングジョブを管理する方法は複数あります。ジョブを作成した後、現在のステータスをクエリすると、ログがストリーミングされます。

トレーニングサービスはハイパーパラメータの調整もサポートしているため、モデルのトレーニングに最適なパラメータを見つけることができます。ハイパーパラメータ調整ジョブは、トレーニングイメージがジョブインターフェースに提供される点で、カスタムトレーニングと似ています。トレーニングサービスは複数のトライアル、またはさまざまハイパーパラメータセットのトレーニングジョブを実行して、最適なモデルを洗い出します。このようなテストを行うには、テストするハイパーパラメータの範囲、トレーニング回数の詳細など、ハイパーパラメータを指定する必要があります。

カスタムトレーニングとハイパーパラメータ調整ジョブは両方ともトレーニングパイプラインにラップされます。トレーニングパイプラインはジョブを実行するだけでなく、オプションの手順として、Vertex AI にモデルをアップロードすることもできます。

トレーニングジョブ用にコードをパッケージ化する方法

一般的に、モデルトレーニングコードを開発する際は自己完結型のコードを作成することをおすすめしています。コンテナ内でモデルを実行する場合は、なおさらです。自己完結型とは、トレーニングコードベースの実行時に、それが独立して動作することを意味します。

以下は、コメントが多く寄せられる自己完結型の Python スクリプトのテンプレートです。ご自身のプロジェクトにご活用ください。

読み込んでいます...

# Imports go here
import tensorflow_datasets as tfds
import tensorflow as tf
…
 
# Define the hyperparameters and constants like epochs, batch size, number of GPUs, etc
parser = argparse.ArgumentParser()
parser.add_argument('--lr', dest='lr',
                   default=0.01, type=float,
                   help='Learning rate.')
parser.add_argument('--epochs', dest='epochs',
                   default=10, type=int,
                   help='Number of epochs.')
...
args = parser.parse_args()
 
...
 
# Prepare data loaders
def make_datasets_unbatched():
 # Scaling CIFAR10 data from (0, 255] to (0., 1.]
 def scale(image, label):
   image = tf.cast(image, tf.float32)
   image /= 255.0
   return image, label
 
 datasets, info = tfds.load(name='cifar10',
                           with_info=True,
                           as_supervised=True)
 return datasets['train'].map(scale).cache().shuffle(BUFFER_SIZE).repeat()
 
# Build our model, compile, and train it
model = [define your model]
model.compile(loss=..., optimizer=..., metrics=...)
model.fit(...)
 
# Serialize our model
model.save(MODEL_DIR)

MODEL_DIR は Google Cloud Storage（GCS）バケット内に配置されている必要がある点に注意してください。これは、トレーニングサービスはバケットとしか通信できず、Google のローカルシステムとは通信できないためです。GCS バケット内の場所のサンプルとしては、gs://caip-training/cifar10-model などが挙げられます。ここで、caip-training は GCS バケットの名前です。

前述のコードではカスタムモジュールを使用していませんが、通常の Python スクリプトと同様に簡単に組み込むことができます。詳細はこちらのドキュメントを参照してください。次に、使用する GPU の種類と数など、トレーニングインフラストラクチャの構成方法を確認し、インフラストラクチャ内で実行するトレーニングスクリプトを送信します。

使用するマシンの構成を含むトレーニングジョブの送信方法

大規模なデータセットで効果的にディープラーニングモデルをトレーニングするには、高度に並列化された方法で行列乗算を実行するのに適したハードウェアアクセラレータが必要です。また、大規模なデータセットで大型モデルをトレーニングする場合、分散トレーニングが一般的です。この例として、1 基の Tesla K80 GPU を使用します。Vertex AI はさまざまな GPU をサポートしています（詳細はこちら）。

以下は Vertex AI SDK を使用してトレーニングジョブを初期化する方法を示しています。

読み込んでいます...

（aiplatform は google.cloud import aiplatform のからのものとしてエイリアスされます）

引数を詳しく見ていきましょう

display_name はトレーニングジョブを容易に検索するための一意の識別子です。
script_path は実行するトレーニングスクリプトのパスです。この例では、前のセクションで説明したスクリプトが指定されています。
container_uri はトレーニングスクリプトの実行に使用されるコンテナの URI です。これには、複数のオプションがあります。この例では、gcr.io/cloud-aiplatform/training/tf-gpu.2-1:latest を使用します。デプロイにも同じコンテナを使用しますが、コンテナの URI は少しだけ異なります。モデルトレーニングに使用可能なコンテナはこちらです。また、デプロイに使用可能なコンテナはこちらです。
requirements では、トレーニングスクリプトの実行に必要な外部パッケージを指定できます。
model_serving_container_image_uri はデプロイ中に使用されるコンテナ URI を指定します。

注意: 目的ごとに適切に依存関係を分離できるようにするために、トレーニングやデプロイなど、個々の目的ごとに異なるコンテナを使用することをおすすめします。

これでカスタムトレーニングジョブを送信する準備が完了しました。

読み込んでいます...

各行を解説します。

model_display_name はトレーニング済みモデルを識別するための一意の名前です。これはパイプラインの後半で予測サービスを使用してデプロイする際に役立ちます。
args は、一般的にハイパーパラメータ値などを特定する場合に使用するコマンドライン引数です。
replica_count はトレーニング中に使用されるワーカーのレプリカの数を指定します。
machine_type はトレーニング中に使用されるベースマシンのタイプを指定します。
accelerator_type はトレーニング中に使用されるアクセラレータのタイプを指定します。Tesla K80 を使用する場合は、TRAIN_GPU を aip.AcceleratorType.NVIDIA_TESLA_K80 に指定しなければなりません（aip は、google.cloud.aiplatform import gapic as aip のからのものとしてエイリアスされます）
accelerator_count は使用するアクセラレータの数を指定します。単一ホストのマルチ GPU 構成では、replica_count を 1 に設定し、accelerator_count を対応するコンピューティングゾーンで利用可能なリソースに応じた選択に基づいて指定します。

ここでのモデルは、google.cloud.aiplatform.models.Model オブジェクトを指します。このオブジェクトは、ジョブの完了後にトレーニングサービスによって返されます。

この設定により、モニタリング可能なカスタムトレーニングジョブを実際に開始できるようになります。前述のトレーニングパイプラインを送信すると、以下のような初期ログが表示されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/pasted_image_0_23.max-800x800.max-800x800.png

図 2: aiplatform でトレーニングジョブを送信した後のログ

図 2 でハイライトされているリンクは、次のようなトレーニングパイプラインのダッシュボードにリダイレクトされます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/pasted_image_0_24.max-1000x1000.max-1000x1000.png

図 3: トレーニングパイプラインダッシュボード

図 3 に示すとおり、ダッシュボードはトレーニングパイプラインに関連する必要なすべてのアーティファクトに関して包括的な概要を示します。また、モデルトレーニングのモニタリングは、特に初期のトレーニングバグを見つけるために重要です。トレーニングログを表示するには、[カスタムジョブ] タブの横のリンクをクリックします（図 3 を参照）。図 3 で示した情報と似たものが表示されますが、今回はログも含まれています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/pasted_image_0_25.max-1000x1000.max-1000x1000.png

図 4: トレーニングジョブダッシュボード

注意: カスタムトレーニングジョブを送信すると、トレーニングをプロビジョニングするために、まずトレーニングパイプラインが作成されます。その後、作成されたパイプライン内で実際のトレーニングジョブが開始されます。このため、2 つのダッシュボードは非常に似ていますが、目的が異なります。

それではログを確認してみましょう（ログは Cloud Logging で自動的に管理されています）。

https://storage.googleapis.com/gweb-cloudblog-publish/images/pasted_image_0_26.max-1200x1200.max-1200x1200.png

図 5: モデルトレーニングログ

また、Cloud Logging では、さまざまな条件に基づいてアラートを設定できます。たとえば、トレーニングジョブが失敗または完了した際にユーザーにアラートを出し、すぐに対処できるようにします。詳細はこちらの記事をご覧ください。

トレーニングパイプラインが完了すると、ユーザーに成功ステータスが示されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/pasted_image_0_27.max-800x800.max-800x800.png

図 6: トレーニングパイプラインの完了ステータス

トレーニング済みモデルへのアクセス

トレーニングサービスとの互換性をモデルに持たせるために GCS バケット内でモデルをシリアル化していたかと思います。よって、モデルがトレーニングされた後は、GCS バケットからモデルにアクセスできます。次のコードを使用して直接読み込むこともできます。

読み込んでいます...

トレーニングで生成された TensorFlow モデルを参照していることに注意してください。トレーニングサービスでは、類似する「モデル」名前空間も維持され、この名前空間はモデルの管理に役立ちます。トレーニングサービスが前述の google.cloud.aiplatform.models.Model オブジェクトを返すということを思い出してください。このオブジェクトには deploy() メソッドがあり、このメソッドを利用することで、さまざまオプションを指定して、プログラムによって数分でモデルをデプロイできます。このオプションを使用したモデルのデプロイについての詳細は、こちらのリンクをご確認ください。

また、Vertex AI では、トレーニングに成功したすべてのモデルに対してダッシュボードが提供されます。ダッシュボードはこちらからアクセスできます。ダッシュボードは以下のように表示されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/pasted_image_0_28.max-700x700.max-700x700.png

図 7: モデルダッシュボード

図 7 で示されているモデルをクリックすると、インターフェースから直接デプロイできます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/pasted_image_0_29.max-600x600.max-600x600.png

図 8: ブラウザからのモデルのデプロイ

この記事では、デプロイについては説明しませんが、実際にお試しいただくことをおすすめします。モデルがエンドポイントにデプロイされたら、そのモデルを使用してオンライン予測を作成できます。

まとめ

このブログ記事では、再現性の向上やテスト管理など、Vertex AI カスタムトレーニングサービスを使用するメリットについてご説明しました。また、Jupyter Notebook のコードベースをコンテナ化された標準的なコードベースに変換する手順についても説明しました。この手順は、トレーニングサービスだけでなく他のコンテナベースの環境にも役立ちます。サンプルノートブックは各手順を理解し、ご自身のプロジェクトのテンプレートとして使用するための出発点として役立ちます。

-デベロッパーアドボカシー担当マネージャー Karl Weinmeister

-機械学習 GDE Sayak Paul

AI & 機械学習