専用パブリック エンドポイントは、オンライン推論用のパブリック エンドポイントです。この方法には、次のような利点があります。
- 専用ネットワーキング: 専用パブリック エンドポイントに推論リクエストを送信すると、他のユーザーのトラフィックから分離されます。
- 最適化されたネットワーク レイテンシ
- ペイロードのサイズ上限の引き上げ: 最大 10 MB。
- リクエスト タイムアウトの延長: 最大 1 時間まで構成可能。
- 生成 AI 対応: ストリーミングと gRPC がサポートされています。推論タイムアウトは最大 1 時間まで構成できます。
これらの理由から、Vertex AI オンライン推論のサービングのベスト プラクティスとして、専用のパブリック エンドポイントをおすすめします。
詳細については、エンドポイント タイプを選択するをご覧ください。
専用の公開エンドポイントを作成してモデルをデプロイする
Google Cloud コンソールを使用して、専用エンドポイントを作成し、モデルをデプロイできます。詳細については、 Google Cloud コンソールを使用してモデルをデプロイするをご覧ください。
次のように Vertex AI API を使用して、専用の公開エンドポイントを作成し、モデルをデプロイすることもできます。
- 専用のパブリック エンドポイントを作成します。推論タイムアウトとリクエスト / レスポンス ロギングの設定は、エンドポイントの作成時にサポートされます。
- Vertex AI API を使用してモデルをデプロイします。
専用パブリック エンドポイントからオンライン推論を取得する
専用エンドポイントは、HTTP と gRPC の両方の通信プロトコルをサポートしています。gRPC リクエストの場合、エンドポイントを適切に識別するには、x-vertex-ai-endpoint-id ヘッダーを含める必要があります。次の API がサポートされています。
- 予測
- RawPredict
- StreamRawPredict
- チャット補完(Model Garden のみ)
Vertex AI SDK for Python を使用して、専用パブリック エンドポイントにオンライン推論リクエストを送信できます。詳細については、専用パブリック エンドポイントにオンライン推論リクエストを送信するをご覧ください。
チュートリアル
制限事項
- チューニング済みの Gemini モデルのデプロイはサポートされていません。
- VPC Service Controls はサポートされていません。代わりに Private Service Connect エンドポイントを使用します。
次のステップ
- Vertex AI オンライン推論のエンドポイント タイプについて学習する。