Vertex AI 上的 DeepSeek 模型以 API 形式提供全托管式无服务器模型。如需在 Vertex AI 上使用 DeepSeek 模型,请直接向 Vertex AI API 端点发送请求。由于 DeepSeek 模型使用托管式 API,因此无需预配或管理基础设施。
您可以流式传输回答,以降低最终用户对延迟时间的感知度。流式回答使用服务器发送的事件 (SSE) 来逐步流式传输回答。
可用的 DeepSeek 模型
DeepSeek 提供了以下模型,可在 Vertex AI 中使用。如需访问 DeepSeek 模型,请前往其 Model Garden 模型卡片。
DeepSeek-V3.1
DeepSeek-V3.1 是一种混合模型,支持思考模式和非思考模式。与之前的版本相比,此升级在混合思考模式、工具调用和思考效率方面带来了改进。
DeepSeek R1 (0528)
DeepSeek R1 (0528) 是 DeepSeek R1 模型的最新版本。 与 DeepSeek-R1 相比,其推理能力有了显著提升。DeepSeek R1 (0528) 擅长各种任务,例如创意写作、一般问答、编辑和总结。
注意事项
- 如需获得可用于生产环境的安全保障,请将 DeepSeek R1 (0528) 与 Model Armor 集成,后者可过滤 LLM 提示和回答中的各种安全和保障风险。
使用 DeepSeek 模型
您可以使用 curl 命令通过以下模型名称向 Vertex AI 端点发送请求:
- 对于 DeepSeek-V3.1,请使用
deepseek-v3.1-maas
- 对于 DeepSeek R1 (0528),请使用
deepseek-r1-0528-maas
准备工作
如需将 DeepSeek 模型与 Vertex AI 搭配使用,您必须执行以下步骤。必须启用 Vertex AI API (aiplatform.googleapis.com
) 才能使用 Vertex AI。如果您已有启用了 Vertex AI API 的项目,则可以使用该项目,而无需创建新项目。
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- 前往以下 Model Garden 模型卡片之一,然后点击启用:
- LOCATION:支持 DeepSeek 模型的区域。
- MODEL:您要使用的模型名称。
- ROLE:与消息关联的角色。您可以指定
user
或assistant
。第一条消息必须使用user
角色。 模型使用交替的user
和assistant
回合运行。如果最终消息使用assistant
角色,则回答内容会立即从该消息中的内容继续。您可以使用它来限制模型的部分回答。 - CONTENT:
user
或assistant
消息的内容(如文本)。 - MAX_OUTPUT_TOKENS:响应中可生成的词元数量上限。词元约为 4 个字符。100 个词元对应大约 60-80 个单词。
指定较低的值可获得较短的回答,指定较高的值可获得可能较长的回答。
- STREAM:一个布尔值,用于指定是否流式传输回答。流式传输您的回答,以降低对最终使用延迟的感知度。设置为
true
可流式传输回答,设置为false
可一次性返回所有回答。 - LOCATION:支持 DeepSeek 模型的区域。
- MODEL:您要使用的模型名称。
- ROLE:与消息关联的角色。您可以指定
user
或assistant
。第一条消息必须使用user
角色。 模型使用交替的user
和assistant
回合运行。如果最终消息使用assistant
角色,则回答内容会立即从该消息中的内容继续。您可以使用它来限制模型的部分回答。 - CONTENT:
user
或assistant
消息的内容(如文本)。 - MAX_OUTPUT_TOKENS:响应中可生成的词元数量上限。词元约为 4 个字符。100 个词元对应大约 60-80 个单词。
指定较低的值可获得较短的回答,指定较高的值可获得可能较长的回答。
- STREAM:一个布尔值,用于指定是否流式传输回答。流式传输您的回答,以降低对最终使用延迟的感知度。设置为
true
可流式传输回答,设置为false
可一次性返回所有回答。 - QPM: 1000
对 DeepSeek 模型进行流式调用
以下示例会对 DeepSeek 模型进行流式调用。
REST
设置您的环境后,您可以使用 REST 测试文本提示。以下示例会向发布方模型端点发送请求。
在使用任何请求数据之前,请先进行以下替换:
HTTP 方法和网址:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
请求 JSON 正文:
{ "model": "deepseek-ai/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": true }
如需发送请求,请选择以下方式之一:
curl
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
您应该收到类似以下内容的 JSON 响应。
对 DeepSeek 模型进行非流式调用
以下示例会对 DeepSeek 模型进行非流式调用:
REST
设置您的环境后,您可以使用 REST 测试文本提示。以下示例会向发布方模型端点发送请求。
在使用任何请求数据之前,请先进行以下替换:
HTTP 方法和网址:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions
请求 JSON 正文:
{ "model": "deepseek-ai/MODEL", "messages": [ { "role": "ROLE", "content": "CONTENT" } ], "max_tokens": MAX_OUTPUT_TOKENS, "stream": false }
如需发送请求,请选择以下方式之一:
curl
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"
PowerShell
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content
您应该收到类似以下内容的 JSON 响应。
DeepSeek 模型区域可用性和配额
对于 DeepSeek 模型,提供该模型的每个区域都有相应的配额。配额以每分钟查询次数 (QPM) 来指定。
型号 | 区域 | 配额 | 上下文长度 |
---|---|---|---|
DeepSeek-V3.1 | |||
us-west2 |
|
163,840 | |
DeepSeek R1 (0528) | |||
us-central1 |
|
163,840 |
如果要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅使用配额。