生成 AI モデルをデプロイする

Gemini のような生成 AI モデルの中には、マネージド API があり、デプロイなしでプロンプトを受け付ける準備が整っているものもあります。マネージド API があるモデルの一覧については、基盤モデル API をご覧ください。

他の生成 AI モデルでは、プロンプトを受け付ける準備が整う前に、そのモデルがエンドポイントにデプロイされる必要があります。デプロイする必要がある生成モデルには、次に挙げる 2 つの種類があります。

チューニング済みモデル。サポートされている基盤モデルを独自のデータでチューニングして作成します。
マネージド API がない生成モデル。Model Garden では、API 利用可能のラベルや Vertex AI Studio のラベルが付いていないモデル（Llama 2 など）がこれに該当します。

モデルをエンドポイントにデプロイすると、Vertex AI は、プロンプトリクエストを処理できるように、コンピューティングリソースと URI をモデルに関連付けます。

チューニング済みモデルをデプロイする

チューニング済みモデルは、Vertex AI Model Registry に自動的にアップロードされ、Vertex AI endpoint にデプロイされます。チューニング済みモデルは、データでチューニングされるため、Model Garden には表示されません。詳細については、モデルのチューニングの概要をご覧ください。

エンドポイントがアクティブになると、その URI でプロンプトリクエストを受け付ける準備が整います。チューニング済みモデルの API 呼び出しの形式は、チューニング元の基盤モデルと同じです。たとえば、モデルが Gemini でチューニングされている場合は、プロンプトリクエストは Gemini API に従う必要があります。

プロンプトリクエストは、マネージド API ではなく、チューニング済みモデルのエンドポイントに送信します。チューニング済みモデルのエンドポイントの形式は次のとおりです。

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

エンドポイント ID を取得するには、エンドポイントを表示または管理するをご覧ください。

プロンプトリクエストの形式の詳細については、モデル API リファレンスをご覧ください。

マネージド API がない生成モデルをデプロイする

マネージド API がない Model Garden のモデルを使用するには、プロンプトリクエストを送信する前に、モデルを Model Registry にアップロードし、エンドポイントにデプロイする必要があります。これは、Vertex AI におけるオンライン予測用のカスタムトレーニングモデルのアップロードとデプロイに似ています。

これらのモデルのいずれかをデプロイするには、Model Garden に移動して、デプロイするモデルを選択します。

Model Garden に移動

各モデルカードには、以下のデプロイオプションが 1 つ以上表示されます。

[デプロイ] ボタン: Model Garden のほとんどの生成モデルには、[デプロイ] ボタンがあり、Vertex AI へのデプロイを順を追って確認できます。[デプロイ] ボタンが表示されない場合は、次の項目に進んでください。

Vertex AI へのデプロイでは、推奨設定を使用するか、推奨設定を変更できます。また、[詳細] デプロイ設定を設定することもできます。たとえば Compute Engine の予約を選択する場合などです。

注: モデルの中には、Google Kubernetes Engine へのデプロイをサポートしているものもあります。これは、より高度な制御を可能にする非マネージドソリューションになります。詳細については、GKE で単一の GPU を持つモデルを提供するをご覧ください。
[ノートブックを開く] ボタン: Jupyter ノートブックを開きます。このオプションは、すべてのモデルカードで表示されます。Jupyter ノートブックには、モデルを Model Registry にアップロードする手順とサンプルコード、モデルをエンドポイントにデプロイする手順とサンプルコード、プロンプトリクエストを送信する手順とサンプルコードが含まれています。

デプロイが完了し、エンドポイントが有効になると、その URI でプロンプトリクエストを受け付ける準備が整います。API の形式は predict で、リクエスト本文の各 instance の形式はモデルによって異なります。詳細については、次のリソースをご覧ください。

モデルをデプロイするために十分なマシン割り当てがあることを確認します。現在の割り当ての確認や、割り当ての引き上げをリクエストするには、Google Cloud コンソールで [割り当て] ページに移動します。

[割り当て] に移動

次に、割り当て名 Custom Model Serving でフィルタして、オンライン予測の割り当てを表示します。詳細については、割り当ての表示と管理をご覧ください。

Compute Engine の予約を使用してデプロイされるモデルの容量を確保する

Compute Engine の予約によって割り当てられた VM リソースに Model Garden のモデルをデプロイできます。予約を使用すると、モデル予測リクエストで必要なときに容量を確保できます。詳細については、予測で予約を使用するをご覧ください。

モデルを表示または管理する

チューニング済みモデルの場合、Google Cloud コンソールの [チューニングと抽出] ページで、モデルとそのチューニングジョブを表示できます。

[チューニングと抽出] に移動

Model Registry では、アップロードしたすべてのモデルを表示して管理することもできます。

Model Registry に移動

Model Registry では、チューニング済みモデルは大規模モデルに分類され、基盤モデルと、チューニングに使用されたパイプラインやチューニングジョブを指定するラベルがあります。

[デプロイ] ボタンでデプロイされたモデルは、その Source として Model Garden が表示されます。モデルが Model Garden で更新されても、Model Registry にアップロードされたモデルは更新されないことに注意してください。

詳細については、Vertex AI Model Registry の概要をご覧ください。

エンドポイントを表示または管理する

エンドポイントを表示して管理するには、Vertex AI の [オンライン予測] ページに移動します。デフォルトでは、エンドポイントの名前はモデルと同じ名前です。

[オンライン予測] に移動

詳細については、エンドポイントにモデルをデプロイするをご覧ください。

料金

チューニング済みモデルの場合、モデルのチューニング元となった基盤モデルと同じレートで、トークンごとに課金されます。チューニングは基盤モデルの上に小さなアダプターとして実装されるため、エンドポイントの費用はかかりません。詳細については、Vertex AI の生成 AI の料金をご覧ください。

マネージド API がないモデルの場合は、Vertex AI のオンライン予測と同じレートで、エンドポイントが使用したマシン時間に対して課金されます。トークンごとには課金されません。詳細については、Vertex AI における予測の料金をご覧ください。