English
Deutsch
Español
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
中文 – 繁體
日本語
한국어

コンソール

お問い合わせ無料で利用開始

このページは Cloud Translation API によって翻訳されました。

オンライン推論に専用のパブリックエンドポイントを使用する

専用パブリックエンドポイントは、オンライン推論用のパブリックエンドポイントです。この方法には、次のような利点があります。

専用ネットワーキング: 専用パブリックエンドポイントに推論リクエストを送信すると、他のユーザーのトラフィックから分離されます。
最適化されたネットワークレイテンシ
ペイロードのサイズ上限の引き上げ: 最大 10 MB。
リクエストタイムアウトの延長: 最大 1 時間まで構成可能。
生成 AI 対応: ストリーミングと gRPC がサポートされています。推論タイムアウトは最大 1 時間まで構成できます。

これらの理由から、Vertex AI オンライン推論のサービングのベストプラクティスとして、専用のパブリックエンドポイントをおすすめします。

詳細については、エンドポイントタイプを選択するをご覧ください。

専用の公開エンドポイントを作成してモデルをデプロイする

Google Cloud コンソールを使用して、専用エンドポイントを作成し、モデルをデプロイできます。詳細については、 Google Cloud コンソールを使用してモデルをデプロイするをご覧ください。

次のように Vertex AI API を使用して、専用の公開エンドポイントを作成し、モデルをデプロイすることもできます。

専用のパブリックエンドポイントを作成します。推論タイムアウトとリクエスト / レスポンスロギングの設定は、エンドポイントの作成時にサポートされます。
Vertex AI API を使用してモデルをデプロイします。

専用パブリックエンドポイントからオンライン推論を取得する

専用エンドポイントは、HTTP と gRPC の両方の通信プロトコルをサポートしています。gRPC リクエストの場合、エンドポイントを適切に識別するには、x-vertex-ai-endpoint-id ヘッダーを含める必要があります。次の API がサポートされています。

予測
RawPredict
StreamRawPredict
チャット補完（Model Garden のみ）

Vertex AI SDK for Python を使用して、専用パブリックエンドポイントにオンライン推論リクエストを送信できます。詳細については、専用パブリックエンドポイントにオンライン推論リクエストを送信するをご覧ください。

チュートリアル

制限事項

チューニング済みの Gemini モデルのデプロイはサポートされていません。
VPC Service Controls はサポートされていません。代わりに Private Service Connect エンドポイントを使用します。

次のステップ

Vertex AI オンライン推論のエンドポイントタイプについて学習する。

特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。

最終更新日 2025-09-16 UTC。