配额和限制

本文介绍 Speech-to-Text 的当前 API 限制和用量限额。如果这些限制和用量限额发生任何更改,我们会相应地更新本页面以反映这些更改。我们保留更改这些限制的权利。

如有必要,您可以申请增加配额。如需详细了解如何查看和管理您的配额,请参阅 Google Cloud 的“配额”页面

在您提交申请后,Google 可能会联系您获取更多信息,并告知您的申请是否获批。

内容限制

同步请求

同步识别请求(使用 Recognize 方法)接受请求 content 字段中内联的音频数据,或者作为请求 uri 字段中的 Cloud Storage URI 接受音频数据。发送到同步请求的音频的上限为 10 MB 或 1 分钟的音频时长(以先达到者为准)。如需详细了解同步识别,请参阅同步识别概览

流式请求

流式传输识别请求(使用 StreamingRecognize 方法)仅接受请求的 audio 字段中的内嵌音频。数据流中的每个请求不得超过 25 KB 的音频。音频流最多可打开 5 分钟,并且必须以接近实时的速率发送音频。如果您需要流式传输超过 5 分钟的内容,请参阅无限流式传输教程。如需详细了解流式传输识别,请参阅流式传输识别概览

批量请求

批量识别请求(使用 BatchRecognize 方法)仅接受音频作为请求的 uri 字段中的 Cloud Storage URI。每个 BatchRecognizeRequest 最多可包含 15 个要转写的 files。每个文件的持续时间最长可达 8 小时。如需详细了解同步识别,请参阅批量识别概览

多语言识别

多语言识别仅适用于全球、美国和欧盟 Speech-to-Text 端点。

自适应

您还可以在任何请求中提供 PhraseSet 和 CustomClass 资源。以下限制适用于这些资源:

语音自适应限制 价值
允许的短语增强值上限 20
PhraseSet 中的短语数 1200
每个请求的短语数 5000
每个短语的字符数 100
每个请求的总字符数 100000
CustomClass 中的项数上限 500
每个 CustomClass 项的字符数上限 500
每个 SpeechAdaptation 的 PhraseSet 数上限 20
每个 SpeechAdaptation 的 CustomClass 数上限 20

资源限制

Speech-to-Text 的当前 API 资源限额如下(可能会更改):

限制类型 用量限额
识别器数量(每个区域) 5000
自定义类的数量(每个区域) 5000
短语集数量(每个区域) 5000

请求限制

Speech-to-Text 的当前 API 用量限额如下(可能会更改):

限制类型 用量限额
每 60 秒(每个区域)的资源请求数 100
每 60 秒(每个区域)的操作请求数 150
每 60 秒(每个区域)的同步识别请求数 300
每 60 秒(每个区域)的流式识别请求数 * 3,000
每 5 分钟(每个区域)的流式识别会话数* 300
每 60 秒(每个区域)的批量识别请求数 150

* 流式识别的配额限制为每 5 分钟 300 个并发会话,每分钟的限制为 3000 个请求,这适用于所有并发会话。会话的初始配置请求不计入请求配额。

这些限制适用于每个 Speech-to-Text 开发者项目,并且使用给定开发者项目的所有应用和 IP 地址消耗的用量均计入该限额。