Google Cloud コンソールで、パブリック エンドポイントを作成し、モデルをデプロイできます。
モデルは、[オンライン予測] ページまたは [Model Registry] ページからデプロイできます。
[オンライン予測] ページからモデルをデプロイする
[オンライン予測] ページで、次のようにエンドポイントを作成し、1 つ以上のモデルをデプロイできます。
Google Cloud コンソールの Vertex AI セクションで、[オンライン予測] ページに移動します。
[
作成] をクリックします。[新しいエンドポイント] ペインで、次の操作を行います。
[エンドポイント名] を入力します。
アクセスタイプの [標準] を選択します。
専用(共有ではない)パブリック エンドポイントを作成するには、[専用 DNS を有効にする] チェックボックスをオンにします。
[続行] をクリックします。
[モデル設定] ペインで、次の操作を行います。
プルダウン リストからモデルを選択します。
プルダウン リストからモデル バージョンを選択します。
モデルのトラフィック分割の割合を入力します。
[完了] をクリックします。
デプロイする追加モデルごとに、上記の手順を繰り返します。
[Model Registry] ページからモデルをデプロイする
[Model Registry] ページで、次のように 1 つ以上の新しいエンドポイントまたは既存のエンドポイントにモデルをデプロイできます。
Google Cloud コンソールの Vertex AI セクションで、[モデル] ページに移動します。
デプロイするモデルの名前とバージョン ID をクリックして、詳細ページを開きます。
[デプロイとテスト] タブを選択します。
モデルがいずれかのエンドポイントにデプロイされている場合は、[モデルのデプロイ] セクションに一覧表示されます。
[エンドポイントへのデプロイ] をクリックします。
新しいエンドポイントにモデルをデプロイするには:
- [ 新しいエンドポイントを作成する] を選択します。
- 新しいエンドポイントの名前を指定します。
- 専用(共有ではない)パブリック エンドポイントを作成するには、[専用 DNS を有効にする] チェックボックスをオンにします。
- [続行] をクリックします。
モデルを既存のエンドポイントにデプロイするには:
- [ 既存のエンドポイントに追加] を選択します。
- プルダウン リストからエンドポイントを選択します。
- [続行] をクリックします。
1 つのエンドポイントに複数のモデルをデプロイすることも、複数のエンドポイントに同じモデルをデプロイすることもできます。
1 つ以上のモデルがデプロイされている既存のエンドポイントにモデルをデプロイする場合は、すべての割合の合計が 100% になるように、デプロイするモデルとデプロイ済みのモデルのトラフィック分割の割合を更新する必要があります。
モデルを新しいエンドポイントにデプロイする場合は、トラフィック分割を 100 にします。それ以外の場合は、合計が 100 になるように、エンドポイントにあるすべてのモデルのトラフィック分割値を調整します。
モデルのコンピューティング ノードの最小数を入力します。
これは、モデルで常に使用できる必要のあるノードの数です。
推論負荷を処理するために使用したノード、または推論トラフィックがない場合でもスタンバイ(最小)ノードに対して課金されます。料金ページをご覧ください。
推論トラフィックを処理するために、必要に応じてコンピューティング ノードの数を増やすことができますが、ノードの最大数を超えることはありません。
自動スケーリングを使用するには、Vertex AI でスケールアップするコンピューティング ノードの最大数を入力します。
マシンタイプを選択します。
マシンリソースのサイズが大きいほど、推論パフォーマンスが向上し、費用も増加します。使用可能なマシンタイプを比較します。
アクセラレータ タイプとアクセラレータ数を選択します。
モデルをインポートまたは作成したときにアクセラレータの使用を有効にした場合に、このオプションが表示されます。
アクセラレータ数については、GPU テーブルを参照して、各 CPU マシンタイプで使用できる有効な GPU の数を確認してください。アクセラレータ数は、デプロイメント内のアクセラレータの合計数ではなく、ノードあたりのアクセラレータの数を指します。
デプロイにカスタム サービス アカウントを使用する場合は、[サービス アカウント] プルダウン ボックスでサービス アカウントを選択します。
予測ロギングのデフォルト設定を変更する方法を確認します。
モデルの [完了] をクリックします。すべてのトラフィック分割の割合が正しい場合は、[続行] をクリックします。
モデルがデプロイされるリージョンが表示されます。これは、モデルを作成したリージョンにする必要があります。
[デプロイ] をクリックして、エンドポイントにモデルをデプロイします。
次のステップ
- オンライン予測の取得方法を確認する。
- 予測ロギングのデフォルト設定を変更する方法を確認する。