AI & 機械学習

モデルの共同ホスティングにより Vertex AI 上にデプロイした複数のモデル間でリソース共有を実現

2022年7月21日

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_co-hosting.max-1900x1900.jpg

Google Cloud Japan Team

※この投稿は米国時間 2022 年 7 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。

モデルを Vertex AI 予測サービスにデプロイする際、各モデルはデフォルトで独自の VM にデプロイされます。ホスティングの費用対効果を高めるため、モデルの共同ホスティングの公開プレビュー版を導入しました。これにより、同一の VM で複数のモデルをホストすることができ、メモリとコンピューティングリソースの使用率が向上します。同じ VM にデプロイするモデルの数はモデルのサイズとトラフィックパターンによりますが、この機能は特に、低トラフィックで多くのモデルをデプロイする場合に便利です。

デプロイリソースプールについて

共同ホスティングモデルのサポートには、モデルをグループ化して VM 内でリソースを共有するという、デプロイリソースプールの概念が導入されています。エンドポイントを共有している複数のモデルが VM を共有できるだけでなく、異なるエンドポイントにデプロイされている場合でも VM の共有が可能です。

たとえば、次の図で示すように 4 つのモデルと 2 つのエンドポイントがあるとします。

Model_A、Model_B、Model_C はすべて Endpoint_1 にデプロイされており、モデル間でトラフィックを分割しています。Model_D は Endpoint_2 にデプロイされており、このエンドポイントのトラフィックをすべて受信します。

それぞれのモデルを異なる VM に割り当てる代わりに、Model_A と Model_B をグループ化して 1 つの VM を共有させ、DeploymentResourcePool_X に組み入れることができます。また、同じエンドポイントを使っていないモデルをグループ化することも可能なため、Model_C と Model_D の両方を DeploymentResourcePool_Y でホストできます。

今回の最初のリリースでは、同じリソースプール内のモデルは、同一のコンテナイメージと Vertex AI のビルド済み TensorFlow 予測コンテナのバージョンを使用している必要があることにご注意ください。その他のモデルのフレームワークとカスタムコンテナはまだサポートされていません。

Vertex AI Prediction でモデルを共同ホスティングする

わずか数ステップでモデルの共同ホスティングを設定できます。主な違いは、まず DeploymentResourcePool を作成してから、そのプール内にモデルをデプロイすることです。

ステップ 1: DeploymentResourcePool を作成する

次のコマンドを使用して、DeploymentResourcePool を作成します。最初のモデルがデプロイされるまで、このリソースに関連する費用は一切かかりません。

読み込んでいます...

ステップ 2: モデルを作成する

モデルは、カスタムトレーニングジョブの最後に、Vertex AI Model Registry にインポートできます。モデルのアーティファクトが Cloud Storage バケットに保存されている場合は、個別にアップロードすることもできます。モデルのアップロードは UI を使うか、以下のコマンドを使って SDK でも行えます。

読み込んでいます...