适用于 Live API 的预配吞吐量

本部分介绍了预配吞吐量如何与 Live API 搭配使用,以进行令牌计数和配额强制执行。

Live API 支持通过会话实现低延迟的多模态互动。它使用会话记忆来保留和回忆会话中互动的信息。这样,模型就可以回忆起之前提供或讨论过的信息。预配吞吐量支持 Gemini 2.5 Flash with Live API 模型。如需详细了解 Live API(包括会话限制和功能),请参阅 Live API 参考文档

计算 Live API 的吞吐量

使用 Live API 时,存储在会话内存中的令牌可用于后续向模型发出的请求。因此,预配吞吐量会同时考虑传入令牌和同一请求中的会话内存令牌。这可能会导致每个请求处理的令牌数量大于用户在当前请求中发送的令牌数量。

Live API 对可存储在会话内存中的令牌总数有限制,并且还包含一个元数据字段,其中包含令牌总数。在计算处理请求所需的吞吐量时,您必须考虑会话内存中的令牌。如果您曾使用过随用随付 (PayGo) 的 Live API,则可以使用这些流量模式和会话令牌来帮助估算您的预配吞吐量需求。

如何估算 Live API 的预配吞吐量需求的示例

在会话期间,所有流量都将按预配吞吐量或按用量付费方式处理。如果您在会话期间达到预配吞吐量配额,系统会显示一条错误消息,要求您稍后重试。当您在配额范围内时,可以继续发送请求。只要会话处于有效状态,会话状态(包括会话内存)就可用。

此示例说明了如何通过包含会话内存中的令牌来处理两个连续的请求。

请求 1 的详细信息

时长:10 秒

发送的 token(音频):10 秒 x 25 个 token/秒 = 250 个 token

发送的 token(视频):10 秒 x 258 个 token/帧每秒 = 2,580 个 token

针对请求 1 处理的 token 总数

  • 发送的 token 数:发送的音频和视频 token 总数 = 2580 + 250 = 2830 个 token
  • 收到的 token 数:100(音频)

请求 2 的详细信息

时长:40 秒

发送的 token(音频):40 秒 x 25 个 token/秒 = 1,000 个 token

针对请求 2 处理的 token 总数

  • 发送的 token 数:请求 2 中发送的 token 数 + 请求 1 中的会话内存 token 数 = 2,830 个 token + 1,000 个 token = 3,830 个 token
  • 收到的令牌数:200(音频)

计算请求中处理的 token 数量

系统会计算这些请求期间处理的令牌数量,计算方式如下:

  • 请求 1 仅处理当前请求中的输入和输出令牌,因为会话内存中没有其他令牌。

  • 请求 2 会处理正在进行的请求中的输入和输出令牌,但也会包含来自会话内存的输入令牌,这些令牌包括来自会话内存的前一个请求(请求 1)中的输入令牌。会话内存中 token 的消耗速率与标准输入 token 的消耗速率相同(1 个输入会话内存 token = 1 个输入 token)。

    如果您在发送请求 2 后,该请求正好用了 1 秒来处理,那么您的令牌将按以下方式处理并应用于您的预配吞吐量配额:

    • 将输入乘以消耗率,即可得出总输入 token 数:

      2830 x(每个会话内存 token 1 个 token)+ 1000 x(每个输入文本 token 1 个 token)= 每次查询 3830 个按消耗调整后的输入 token

    • 将输出乘以消耗率,即可得出总输出 token 数:

      200 x(每个音频输出 token 6 个 token)= 1,200 个 token

    • 将这两个总数相加,即可得出处理的 token 总数:

      3,830 个 token + 1,200 个 token = 5,030 个 token

如果您的预配吞吐量配额大于每秒 5,030 个令牌,则可以立即处理此请求。如果小于,则系统会按照您为配额设置的速率随时间推移处理这些 token。

后续步骤