配额

准确的配额估算基于您向每个 API 发送的每秒查询次数 (QPS)。以下各部分概述了与每项 Agent Assist 功能搭配使用的 API 的配额。

如需详细了解如何申请增加配额,请参阅配额页面。在您提交申请后,Google 可能会联系您获取更多信息,并告知您的申请何时获批或被拒。

项目类型

以下配额表列出了两种类型的项目:使用方项目和资源项目。如需了解这两种项目类型的定义,请参阅有关使用多个项目的文档。

CCAI 转写

此功能使用电话或 gRPC 集成,这两种集成具有不同的 API 配额。

电话集成

如需了解与电话集成搭配使用的 API 的配额,请参阅 Dialogflow 配额

gRPC 集成

配额限制名称 默认值 区域 收费资源/消费者项目 说明
AnalyzeContentOperationsPerMinutePerProject 300 个请求/分钟 全球 使用方项目 AnalyzeContent/StreamingAnalyzeContent 请求。Dialogflow 和 Agent Assist 共享配额。

情感分析

配额限制名称 默认值 区域 收费资源/消费者项目 说明
AnalyzeSentimentOperationsPerMinutePerProject 300 个请求/分钟 全球 使用方项目 通过 AnalyzeContent 或 StreamingAnalyzeContent 发出的情感分析请求。
AnalyzeSentimentOperationsPerMinutePerProjectPerRegion 300 个请求/分钟 全球 使用方项目 AnalyzeSentiment 和 StreamingAnalyzeSenitment 请求。Dialogflow 和 Agent Assist 共享配额。

打造自己的辅助功能

此功能使用以下 AI 模型:

  • text-bison@001(默认限制为 0)
  • text-bison@002
  • text-bison-32k@002
  • gemini-1.0-pro
  • gemini-1.5-pro
  • gemini-1.5-pro-001
  • gemini-1.5-flash-001
  • gemini-1.5-flash-002
  • gemini-2.0-flash-001
配额限制名称 默认值 区域 收费资源/消费者项目 说明
GeneratorSuggestionOperationsPerMinutePerModelType 10 个请求/分钟 全球 使用方项目 每种模型类型的生成器建议操作
GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion 10 个请求/分钟 区域 使用方项目 每个模型类型和区域的生成器建议操作数

摘要

AI 生成的摘要使用以下模型:

  • summarization-1.0
  • summarization-2.0
  • summarization-2.1
  • summarization-3.0
  • summarization-3.1
  • summarization-4.0

下表显示了每种总结版本的配额类型和所用模型。


总结版本

配额类型

后端模型

Generator 4.0

基于生成器的

预训练的 Gemini-2.0-flash-001

生成器 3.1

基于生成器的

经过 Lora 调优的 gemini-1.5-flash-001

生成器 3.0

基于生成器的

经过 Lora 调优的 gemini-1.0-pro-002

生成器 2.1

基于生成器的

经过 Lora 调优的 text-bison-32k@002

Generator 2.0

基于生成器的

经过 Lora 调优的 text-bison-32k@002

生成器 1.0

基于生成器的

经过 Lora 调优的 text-bison@001

基准 v2

基准模型 v2

text-bison

基准模型 v1

非基于生成器的

LongT5 模型

自定义 2.0

非基于生成器的

LongT5 模型

上表中的配额类型反映在以下用于总结的 API 的配额列表中。


配额类型

配额限制名称

默认值

区域

收费资源/消费项目

说明

基于生成器的

GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion

10 个请求/分钟

区域级

使用方项目

每个模型类型和区域的生成器建议操作数

基于生成器的

GeneratorSuggestionOperationsPerMinutePerModelType

10 个请求/分钟

全球

使用方项目

每种模型类型的生成器建议操作数

基于生成器的

SuggestConversationSummaryOperationsPerMinutePerProject

60 个请求/分钟

全球

资源项目

建议对话摘要操作

非基于生成器的

SuggestConversationSummaryOperationsPerMinutePerProjectPerRegion

0-2 个请求/分钟

区域级

资源项目

建议在每个区域中进行对话摘要操作

基准模型 v2

SuggestSummaryV2BaselineOperationsPerMinutePerProject

120 个请求/分钟

全球

资源项目

对话摘要建议 V2 基准轮询请求

基准模型 v2

SuggestSummaryV2BaselineOperationsPerMinutePerProjectPerRegion

60 个请求/分钟

区域级

资源项目

每个区域的对话摘要建议 V2 基准轮询请求

摘要自动评估

配额限制名称 默认值 区域 收费资源/消费者项目 说明
ConcurrentSummarizationEvaluationsPerProject 每个项目 1 个请求 使用方项目 自动评估请求

如果您需要额外的并发配额,请通过 Google Cloud 控制台提出申请。此功能最多支持每个项目 4 个并发配额。

生成式知识辅助

配额限制名称 默认值 区域 收费资源/消费者项目 说明
SearchKnowledgeOperationsPerMinutePerProject 60 个请求/分钟 全球 使用方项目 SearchKnowledge 请求

主动式生成知识辅助

配额限制名称 默认值 区域 收费资源/消费者项目 说明
SuggestKnowledgeAssistOperationsPerMinutePerProject 60 个请求/分钟 全球 资源项目 通过 AnalyzeContent 或 SuggestKnowledgeAssist 发出的 KnowledgeAssist 请求
SuggestKnowledgeAssistOperationsPerMinutePerProjectPerRegion 30 个请求/分钟 区域 资源项目 通过 AnalyzeContent 或 SuggestKnowledgeAssist 在每个区域中发出的 KnowledgeAssist 请求

其他 API 配额

配额限制名称 默认值 区域 收费资源/消费者项目 说明
ConversationOperationsPerMinutePerProject 300 个请求/分钟 全球 使用方项目 除 AnalyzeContent 和 StreamingAnalyzeContent 之外的其他对话请求,例如 CreateConversation、CompleteConversation。Dialogflow 和 Agent Assist 共享配额。
MessagePollingOperationsPerMinutePerProject 每分钟 1,200 个请求 全球 使用方项目 ListMessages 请求。Dialogflow 和 Agent Assist 共享配额。
AnswerRecordOperationsPerMinutePerProject 300 个请求 / 分钟 全球 使用方项目 AnswerRecord 请求