专用公共端点是用于在线推理的公共端点。它具有以下优势:
- 专用网络:当您向专用公共端点发送推理请求时,该请求会与其他用户的流量隔离开来。
- 优化网络延迟
- 支持更大的载荷:最大 10 MB。
- 更长的请求超时时间:最多可配置 1 小时。
- 支持生成式 AI:支持流式传输和 gRPC。推理超时时间最长可配置为 1 小时。
出于这些原因,建议将专用公共端点作为提供 Vertex AI 在线推理的最佳实践。
如需了解详情,请参阅选择端点类型。
创建专用公开端点并将模型部署到该端点
您可以使用Google Cloud 控制台创建专用端点并将模型部署到该端点。如需了解详情,请参阅使用 Google Cloud 控制台部署模型。
您还可以使用 Vertex AI API 创建专用公共端点并将模型部署到该端点,具体操作如下:
- 创建专用公共端点。 在创建端点时,系统支持配置推理超时和请求-响应日志记录设置。
- 使用 Vertex AI API 部署模型。
从专用公共端点获取在线推理结果
专用端点同时支持 HTTP 和 gRPC 通信协议。对于 gRPC 请求,必须包含 x-vertex-ai-endpoint-id 标头,以便正确识别端点。支持以下 API:
- 预测
- RawPredict
- StreamRawPredict
- 聊天完成(仅限 Model Garden)
您可以使用 Vertex AI SDK for Python 向专用公共端点发送在线推理请求。如需了解详情,请参阅向专用公共端点发送在线推理请求。
教程
限制
- 不支持部署经过调优的 Gemini 模型。
- 不支持 VPC Service Controls。请改用 Private Service Connect 端点。
后续步骤
- 了解 Vertex AI 在线推理端点类型。