使用预配吞吐量

本页面介绍了如何控制超额使用或绕过预配吞吐量,以及如何监控预配吞吐量的用量。

控制超额或绕过预配吞吐量

在超出所购吞吐量时,使用 REST API 控制超额或按请求绕过预分配吞吐量。

仔细阅读每种选项,确定您必须采取哪些措施才能满足您的使用场景。

默认行为

如果您超出所购买的吞吐量,超出部分将按需使用,并按随用随付费率结算。预配置吞吐量订单生效后,系统会自动执行默认行为。您无需更改代码即可开始使用订单。

以下 curl 示例演示了默认行为。

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

仅使用预配吞吐量

如果您通过避免按需费用来管理成本,请仅使用预配吞吐量。超出预配置吞吐量订单金额的请求会返回错误 429

此 curl 示例演示了如何使用 REST API 仅使用预配吞吐量订阅,超额使用时会返回错误 429

X-Vertex-AI-LLM-Request-Type 标头设置为 dedicated

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

仅使用随用随付

这也称为按需使用。请求会绕过预配吞吐量订单,并直接发送到按用量付费订单。这可能适用于正在开发的实验或应用。

此 curl 示例演示了如何使用 REST API 绕过预配吞吐量,仅使用按用量付费。

X-Vertex-AI-LLM-Request-Type 标头设置为 shared

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

监控预配吞吐量

您可以通过监控指标,按请求监控预配的吞吐量用量。

响应标头

如果请求是使用预配置吞吐量处理的,响应中会包含以下 HTTP 标头。这行代码仅适用于 generateContent API 调用。

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

指标

您可以使用一组基于 aiplatform.googleapis.com/PublisherModel 资源类型测量的指标来监控已预配的吞吐量。每个指标都可以按以下维度进行过滤:

  • typeinputoutput
  • request_typededicatedshared

如需过滤指标以查看预配吞吐量用量,请使用 dedicated 请求类型。指标的路径前缀为 aiplatform.googleapis.com/publisher/online_serving

例如,/consumed_throughput 指标的完整路径为 aiplatform.googleapis.com/publisher/online_serving/consumed_throughput

Gemini 模型中的 aiplatform.googleapis.com/PublisherModel 资源上提供以下 Cloud Monitoring 指标,并具有预配吞吐量用量的过滤器:

指标 显示名称 说明
/characters 角色 输入和输出字符数分布。
/character_count 字符数 累计输入和输出字符数。
/consumed_throughput 字符吞吐量 消耗的吞吐量(考虑消耗速率),以字符数表示。对于基于 token 的模型,这等同于 token 消耗的吞吐量 * 4。
/model_invocation_count 模型调用次数 模型调用(预测请求)的数量。
/model_invocation_latencies 模型调用延迟时间 模型调用延迟时间(预测延迟时间)。
/first_token_latencies 第一个词元延迟时间 从收到请求到返回第一个词元所用的时间。
/tokens 令牌 输入和输出词元计数分布。
/token_count 词元数 累计输入和输出词元数。

Anthropic 模型也具有针对预配吞吐量的过滤器,但仅适用于 tokens/token_count

后续步骤