本页面介绍了如何控制超额使用或绕过预配吞吐量,以及如何监控预配吞吐量的用量。
控制超额或绕过预配吞吐量
在超出所购吞吐量时,使用 REST API 控制超额或按请求绕过预分配吞吐量。
仔细阅读每种选项,确定您必须采取哪些措施才能满足您的使用场景。
默认行为
如果您超出所购买的吞吐量,超出部分将按需使用,并按随用随付费率结算。预配置吞吐量订单生效后,系统会自动执行默认行为。您无需更改代码即可开始使用订单。
以下 curl 示例演示了默认行为。
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
仅使用预配吞吐量
如果您通过避免按需费用来管理成本,请仅使用预配吞吐量。超出预配置吞吐量订单金额的请求会返回错误 429。
此 curl 示例演示了如何使用 REST API 仅使用预配吞吐量订阅,超额使用时会返回错误 429。
将 X-Vertex-AI-LLM-Request-Type
标头设置为 dedicated
。
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
仅使用随用随付
这也称为按需使用。请求会绕过预配吞吐量订单,并直接发送到按用量付费订单。这可能适用于正在开发的实验或应用。
此 curl 示例演示了如何使用 REST API 绕过预配吞吐量,仅使用按用量付费。
将 X-Vertex-AI-LLM-Request-Type
标头设置为 shared
。
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
监控预配吞吐量
您可以通过监控指标,按请求监控预配的吞吐量用量。
响应标头
如果请求是使用预配置吞吐量处理的,响应中会包含以下 HTTP 标头。这行代码仅适用于 generateContent
API 调用。
{"X-Vertex-AI-LLM-Request-Type": "dedicated"}
指标
您可以使用一组基于 aiplatform.googleapis.com/PublisherModel
资源类型测量的指标来监控已预配的吞吐量。每个指标都可以按以下维度进行过滤:
type
:input
、output
request_type
:dedicated
、shared
如需过滤指标以查看预配吞吐量用量,请使用 dedicated
请求类型。指标的路径前缀为 aiplatform.googleapis.com/publisher/online_serving
。
例如,/consumed_throughput
指标的完整路径为 aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
。
Gemini 模型中的 aiplatform.googleapis.com/PublisherModel
资源上提供以下 Cloud Monitoring 指标,并具有预配吞吐量用量的过滤器:
指标 | 显示名称 | 说明 |
---|---|---|
/characters |
角色 | 输入和输出字符数分布。 |
/character_count |
字符数 | 累计输入和输出字符数。 |
/consumed_throughput |
字符吞吐量 | 消耗的吞吐量(考虑消耗速率),以字符数表示。对于基于 token 的模型,这等同于 token 消耗的吞吐量 * 4。 |
/model_invocation_count |
模型调用次数 | 模型调用(预测请求)的数量。 |
/model_invocation_latencies |
模型调用延迟时间 | 模型调用延迟时间(预测延迟时间)。 |
/first_token_latencies |
第一个词元延迟时间 | 从收到请求到返回第一个词元所用的时间。 |
/tokens |
令牌 | 输入和输出词元计数分布。 |
/token_count |
词元数 | 累计输入和输出词元数。 |
Anthropic 模型也具有针对预配吞吐量的过滤器,但仅适用于 tokens/token_count
。
后续步骤
- 排查错误代码
429
问题。