您可以流式传输 Claude 回答,以降低对最终用户延迟的感知度。流式回答使用服务器发送的事件 (SSE) 来逐步流式传输回答。
您可以按实际用量(随用随付)或按固定费用(使用预配吞吐量时)为 Claude 模型付费。如需了解随用随付定价,请参阅 Vertex AI 定价页面上的 Anthropic 的 Claude 模型。
可用的 Claude 模型
Anthropic 提供了以下模型,可在 Vertex AI 中使用。如需访问 Claude 模型,请前往其 Model Garden 模型卡片。
Claude 3.5 Sonnet v2
Claude 3.5 Sonnet v2 是一款先进的模型,适用于处理实际的软件工程任务和智能体功能。Claude 3.5 Sonnet v2 可提供这些改进,且价格和速度与 Claude 3.5 Sonnet 相同。
升级后的 Claude 3.5 Sonnet 模型能够与可操控计算机桌面环境的工具进行交互。如需了解详情,请参阅 Anthropic 的文档。
Claude 3.5 Sonnet 针对以下应用场景进行了优化:
- 智能体任务和工具使用 - Claude 3.5 Sonnet 可为需要使用工具的智能体工作流提供卓越的指令跟踪、工具选择、错误更正和高级推理。
- 编码 - 对于从代码迁移、代码修复到翻译等软件开发任务,Claude 3.5 Sonnet 在规划和解决复杂编码任务方面都表现出强大的能力。
- 文档问答 - Claude 3.5 Sonnet 结合了强大的上下文理解能力、高级推理能力和综合能力,可提供准确且人性化的回答。
- 可视化数据提取 - 借助 Claude 3.5 Sonnet 领先的视觉能力,Claude 3.5 Sonnet 可以在 AI 工作流中从图表或图形等可视化内容中提取原始数据。
- 内容生成和分析 - Claude 3.5 Sonnet 可以理解内容中的细微差别和措辞风格,生成更具吸引力的内容,并更深入地分析内容。
Claude 3.5 Haiku
Claude 3.5 Haiku 是 Anthropic 最快且最具成本效益的下一代模型,非常适合速度和经济性重要的应用场景。它在各个技能方面都比上一代更出色。 Claude 3.5 Haiku 针对以下应用场景进行了优化:
- 代码补全 - Claude 3.5 Haiku 响应速度快,并且能够理解编程模式,因此非常擅长在实时开发工作流中提供快速、准确的代码建议和补全。
- 交互式聊天机器人 - Claude 3.5 Haiku 改进了推理能力和自然对话能力,非常适合创建响应迅速且富有吸引力的聊天机器人,这些机器人能够高效处理大量用户互动。
- 数据提取和标记 - 利用其改进的分析技能,Claude 3.5 Haiku 可以高效地处理和分类数据,非常适合快速数据提取和自动标记任务。
- 实时内容审核 - Claude 3.5 Haiku 具备强大的推理能力和内容理解能力,可为需要大规模即时响应的平台提供快速、可靠的内容审核服务。
Claude 3 Opus
Anthropic 的 Claude 3 Opus 是一个强大的 AI 模型,在处理高度复杂的任务时可达到出色的性能。它能够处理开放式提示和背后可能的方案,具有出色的流利度和真人理解能力。Claude 3 Opus 针对以下应用场景进行了优化:
任务自动化,例如交互式编码和规划,或跨 API 和数据库运行复杂操作。
研究和开发任务,例如研究审核、头脑风暴和假设生成,以及产品测试。
战略任务,例如对图表和图形进行高级分析、财务和市场趋势分析以及预测。
视觉任务,例如处理图片以返回文本输出。此外,还可以分析图表、图形、技术图表、报告和其他直观内容。
Claude 3 Haiku
Anthropic Claude 3 Haiku 是 Anthropic 最快的视觉和文本模型,能够近乎即时地响应基本查询,旨在打造模仿人类互动的无缝 AI 体验。
实时的客户互动和翻译。
内容审核,发现可疑行为或客户请求。
节省费用的任务,例如库存管理以及从非结构化数据中提取知识。
视觉任务,例如处理图片以返回文本输出,分析图表、图形、技术图表、报告和其他视觉内容。
Claude 3.5 Sonnet
凭借 Anthropic 的中端模型 Claude 3 Sonnet 的速度和成本,Anthropic 的 Claude 3.5 Sonnet 在 Anthropic 的多种评估中优于 Claude 3 Opus。Claude 3.5 Sonnet 针对以下应用场景进行了优化:
使用复杂的推理和问题排查功能进行编码,例如编写、编辑和运行代码。
通过了解用户情境并协调多步工作流,处理来自客户支持团队的复杂查询。
通过浏览非结构化数据并利用多个工具生成数据洞见,来进行数据科学和分析。
视觉处理,例如解释需要视觉理解的图形和图表。
以更自然、更像人类的语气撰写内容。
Claude 3 Sonnet
Anthropic Claude 3 Sonnet 是 Anthropic 可靠的技能和速度组合。旨在在各种应用场景中可靠地进行扩缩 AI 部署。Claude 3 Sonnet 针对以下应用场景进行了优化:
数据处理,包括检索增强生成 (RAG) 和搜索检索。
销售任务,例如产品推荐、预测和精准营销。
节省时间的任务,例如代码生成、质量控制和图片中的光学字符识别 (OCR)。
视觉任务,例如处理图片以返回文本输出。此外,还可以分析图表、图形、技术图表、报告和其他直观内容。
使用 Claude 模型
您可以使用 Anthropic 的 SDK 或 curl 命令通过以下模型名称向 Vertex AI 端点发送请求:
- 对于 Claude 3.5 Sonnet v2,请使用
claude-3-5-sonnet-v2@20241022
。 - 对于 Claude 3.5 Haiku,请使用
claude-3-5-haiku@20241022
。 - 对于 Claude 3 Opus,请使用
claude-3-opus@20240229
。 - 对于 Claude 3.5 Sonnet,请使用
claude-3-5-sonnet@20240620
。 - 对于 Claude 3 Haiku,请使用
claude-3-haiku@20240307
。 - 对于 Claude 3 Sonnet,请使用
claude-3-sonnet@20240229
。
必须将 Anthropic 的 Claude 模型版本与以 @
符号(例如 claude-3-5-sonnet-v2@20241022
或 claude-3-5-haiku@20241022
)开头的后缀搭配使用,以确保行为一致。
准备工作
如需将 Anthropic 的 Claude 模型与 Vertex AI 搭配使用,您必须执行以下步骤。必须启用 Vertex AI API (aiplatform.googleapis.com
) 才能使用 Vertex AI。如果您已有启用了 Vertex AI API 的项目,则可以使用该项目,而无需创建新项目。
确保您拥有启用和使用合作伙伴模型所需的权限。如需了解详情,请参阅授予所需权限。
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- 转到以下 Model Garden 模型卡片之一,然后点击启用:
使用 Anthropic 的 SDK
您可以使用 Anthropic Claude SDK 向 Anthropic 的 Claude 模型发出 API 请求。如需了解详情,请参阅以下内容:
使用 Anthropic 的 Vertex SDK 对 Claude 模型进行流式调用
以下代码示例使用 Anthropic 的 Vertex SDK 对 Claude 模型执行流式调用。
Python
如需了解如何安装或更新 Vertex AI SDK for Python,请参阅安装 Vertex AI SDK for Python。 如需了解详情,请参阅 Python API 参考文档。
使用 Anthropic 的 Vertex SDK 对 Claude 模型进行一元调用
以下代码示例使用 Anthropic 的 Vertex SDK 对 Claude 模型执行一元调用。
Python
如需了解如何安装或更新 Vertex AI SDK for Python,请参阅安装 Vertex AI SDK for Python。 如需了解详情,请参阅 Python API 参考文档。
使用 curl 命令
您可以使用 curl 命令向 Vertex AI 端点发出请求。curl 命令指定要使用的受支持的 Claude 模型:
必须将 Anthropic 的 Claude 模型版本与以 @
符号(例如 claude-3-5-sonnet-v2@20241022
或 claude-3-5-haiku@20241022
)开头的后缀搭配使用,以确保行为一致。
以下主题介绍如何创建 curl 命令并包含示例 curl 命令。
REST
如需使用 Vertex AI API 测试文本提示,请向发布方模型端点发送 POST 请求。
在使用任何请求数据之前,请先进行以下替换:
- LOCATION:支持 Anthropic Claude 模型的区域。
- MODEL:您要使用的模型名称。
- ROLE:与消息关联的角色。您可以指定
user
或assistant
。第一条消息必须使用user
角色。 Claude 模型使用交替的user
和assistant
回合运行。如果最终消息使用assistant
角色,则回答内容会立即从该消息中的内容继续。您可以使用它来限制模型的部分回答。 - STREAM:一个布尔值,用于指定是否流式传输回答。流式传输您的回答,以降低对最终使用延迟的感知度。设置为
true
可流式传输回答,设置为false
可一次性返回所有回答。 - CONTENT:
user
或assistant
消息的内容(如文本)。 - MAX_OUTPUT_TOKENS:回答中可生成的词元数量上限。一个词元约为 3.5 个字符。100 个词元对应大约 60-80 个单词。
指定较低的值可获得较短的回答,指定较高的值可获得可能较长的回答。
- TOP_P(可选):Top-p 可更改模型选择输出词元的方式。系统会按照概率从最高(见 top-K)到最低的顺序选择词元,直到所选词元的概率总和等于 top-P 的值。例如,如果词元 A、B 和 C 的概率分别为 0.3、0.2 和 0.1,并且 top-P 值为
0.5
,则模型将选择 A 或 B 作为下一个词元(通过温度确定),并会排除 C,将其作为候选词元。指定较低的值可获得随机程度较低的回答,指定较高的值可获得随机程度较高的回答。
- TOP_K(可选):Top-K 可更改模型选择输出词元的方式。如果 top-K 设为
1
,表示所选词元是模型词汇表的所有词元中概率最高的词元(也称为贪心解码)。如果 top-K 设为3
,则表示系统将从 3 个概率最高的词元(通过温度确定)中选择下一个词元。在每个词元选择步骤中,系统都会对概率最高的 top-K 词元进行采样。然后,系统会根据 top-P 进一步过滤词元,并使用温度采样选择最终的词元。
指定较低的值可获得随机程度较低的回答,指定较高的值可获得随机程度较高的回答。
HTTP 方法和网址:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict
请求 JSON 正文:
{ "anthropic_version": "vertex-2023-10-16", "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": STREAM }
如需发送请求,请选择以下方式之一:
curl
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"
PowerShell
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content
您应该收到类似以下内容的 JSON 响应。
示例 curl 命令
MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
"anthropic_version": "vertex-2023-10-16",
"messages": [{
"role": "user",
"content": "Hello!"
}],
"max_tokens": 50,
"stream": true}'
工具使用情况(函数调用)
Anthropic 的 Claude 模型支持工具和函数调用,以增强模型的功能。如需了解详情,请参阅 Anthropic 文档中的工具使用概览。
以下示例演示了如何使用 Anthropic 的 SDK 或 curl 命令使用工具。这些示例会搜索旧金山附近正在营业的餐厅。
Python
如需了解如何安装或更新 Vertex AI SDK for Python,请参阅安装 Vertex AI SDK for Python。 如需了解详情,请参阅 Python API 参考文档。
REST
在使用任何请求数据之前,请先进行以下替换:
- LOCATION:支持 Anthropic Claude 模型的区域。
- MODEL:要使用的模型名称。
- ROLE:与消息关联的角色。您可以指定
user
或assistant
。第一条消息必须使用user
角色。 Claude 模型使用交替的user
和assistant
回合运行。如果最终消息使用assistant
角色,则回答内容会立即从该消息中的内容继续。您可以使用它来限制模型的部分回答。 - STREAM:一个布尔值,用于指定是否流式传输回答。流式传输您的回答,以降低对最终使用延迟的感知度。设置为
true
可流式传输回答,设置为false
可一次性返回所有回答。 - CONTENT:
user
或assistant
消息的内容(如文本)。 - MAX_OUTPUT_TOKENS:响应中可生成的词元数量上限。一个词元约为 3.5 个字符。100 个词元对应大约 60-80 个单词。
指定较低的值可获得较短的回答,指定较高的值可获得可能较长的回答。
HTTP 方法和网址:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict
请求 JSON 正文:
{ "anthropic_version": "vertex-2023-10-16", "max_tokens": MAX_TOKENS, "stream": STREAM, "tools": [ { "name": "text_search_places_api", "description": "Returns information about a set of places based on a string", "input_schema": { "type": "object", "properties": { "textQuery": { "type": "string", "description": "The text string on which to search" }, "priceLevels": { "type": "array", "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]", }, "openNow": { "type": "boolean", "description": "Describes whether a place is open for business at the time of the query." }, }, "required": ["textQuery"] } } ], "messages": [ { "role": "user", "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??" } ] }
如需发送请求,请选择以下方式之一:
curl
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"
PowerShell
将请求正文保存在名为 request.json
的文件中,然后执行以下命令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content
您应该收到类似以下内容的 JSON 响应。
使用 Vertex AI Studio
对于 Anthropic 的某些 Claude 模型,您可以使用 Vertex AI Studio 在 Google Cloud 控制台中快速对生成式 AI 模型进行原型设计和测试。例如,您可以使用 Vertex AI Studio 将 Claude 模型的回答与其他受支持的模型(例如 Google 的 Gemini)的回答进行比较。
如需了解详情,请参阅快速入门:使用 Vertex AI Studio 向 Gemini 发送文本提示。
Anthropic Claude 区域可用性
Claude 3.5 Sonnet v2 可在以下区域使用:
us-east5 (Ohio)
europe-west1 (Belgium)
us-east5 (Ohio)
us-east5 (Ohio)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
Anthropic Claude 配额和支持的上下文长度
对于 Claude 模型,可用该模型的每个区域都有配额。配额在每分钟查询次数 (QPM) 和每分钟词元数 (TPM) 中指定。TPM 包括输入和输出词元。
为了保持整体服务性能和合理使用,上限可能会因账号而异,在某些情况下,访问权限可能会受到限制。在 Google Cloud 控制台的配额和系统限制页面上查看项目的配额。您还必须拥有以下配额:
Online prediction requests per base model per minute per region per base_model
Online prediction tokens per minute per base model per minute per region per base_model
Claude 3.5 Sonnet v2
下表显示了 Claude 3.5 Sonnet v2 的最大配额和支持的上下文长度。
区域 | 配额 | 支持的上下文长度 |
---|---|---|
us-east5 (Ohio) |
最高 90 QPM、540,000 TPM | 200,000 个词元 |
europe-west1 (Belgium) |
最多 55 QPM、330,000 TPM | 200,000 个词元 |
Claude 3.5 Haiku
下表显示了 Claude 3.5 Haiku 的最大配额和支持的上下文长度。
区域 | 配额 | 支持的上下文长度 |
---|---|---|
us-east5 (Ohio) |
最多 80 QPM、350,000 TPM | 200,000 个词元 |
Claude 3 Opus
下表显示了 Claude 3 Opus 的配额上限和支持的上下文长度。
区域 | 配额 | 支持的上下文长度 |
---|---|---|
us-east5 (Ohio) |
最多 20 QPM、105,000 TPM | 200,000 个词元 |
Claude 3 Haiku
下表显示了 Claude 3 Haiku 的最大配额和支持的上下文长度。
区域 | 配额 | 支持的上下文长度 |
---|---|---|
us-east5 (Ohio) |
最多 245 QPM、600,000 TPM | 200,000 个词元 |
asia-southeast1 (Singapore) |
最多 70 QPM、174,000 TPM | 200,000 个词元 |
europe-west1 (Belgium) |
最多 75 QPM、181,000 TPM | 200,000 个词元 |
Claude 3.5 Sonnet
下表显示了 Claude 3.5 Sonnet 的最大配额和支持的上下文长度。
区域 | 配额 | 支持的上下文长度 |
---|---|---|
us-east5 (Ohio) |
最多 120 QPM、555,000 TPM | 200,000 个词元 |
asia-southeast1 (Singapore) |
最多 35 QPM、150,000 TPM | 200,000 个词元 |
europe-west1 (Belgium) |
最多 130 QPM、600,000 TPM | 200,000 个词元 |
Claude 3 Sonnet
下表显示了 Claude 3 Sonnet 的最大配额和支持的上下文长度。
区域 | 配额 | 支持的上下文长度 |
---|---|---|
us-east5 (Ohio) |
最多 10 QPM、30,000 TPM | 200,000 个词元 |
若要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅使用配额。