English
Deutsch
Español
Español – América Latina
Français
Indonesia
Italiano
Português
Português – Brasil
中文 – 简体
中文 – 繁體
日本語
한국어

控制台

联系我们免费开始使用吧

使用专用公共端点进行在线推理

专用公共端点是用于在线推理的公共端点。它具有以下优点：

专用网络：当您向专用公共端点发送推理请求时，该请求会与其他用户的流量隔离开。
优化网络延迟
支持更大的载荷：最大 10 MB。
更长的请求超时时间：最多可配置 1 小时。
支持生成式 AI：支持流式传输和 gRPC。推理超时时间最长可配置为 1 小时。

出于这些原因，建议将专用公共端点作为提供 Vertex AI 在线推理服务的最佳实践。

如需了解详情，请参阅选择端点类型。

创建专用公共端点并将模型部署到该端点

您可以使用Google Cloud 控制台创建专用端点并将模型部署到该端点。如需了解详情，请参阅使用 Google Cloud 控制台部署模型。

您还可以使用 Vertex AI API 创建专用公共端点并将模型部署到该端点，如下所示：

创建专用公共端点。在创建端点时，系统支持配置推理超时和请求-响应日志记录设置。
使用 Vertex AI API 部署模型。

从专用公共端点获取在线推理结果

专用端点同时支持 HTTP 和 gRPC 通信协议。对于 gRPC 请求，必须包含 x-vertex-ai-endpoint-id 标头，以便正确识别端点。支持以下 API：

预测
RawPredict
StreamRawPredict
Chat Completion（仅限 Model Garden）

您可以使用 Vertex AI SDK for Python 向专用公共端点发送在线推理请求。如需了解详情，请参阅向专用公共端点发送在线推理请求。

教程

限制

不支持部署经过调优的 Gemini 模型。
不支持 VPC Service Controls。请改用 Private Service Connect 端点。

后续步骤

了解 Vertex AI 在线推理端点类型。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-10-19。