请试用 Gemini 1.5 Pro（Vertex AI 中最先进的多模态模型），看看您可以通过包含 100 万个词元的上下文窗口构建什么。 请试用 Gemini 1.5 Pro（Vertex AI 中最先进的多模态模型），看看您可以通过包含 100 万个词元的上下文窗口构建什么。

配额和限制

本文档列出了适用于 Speech-to-Text 的配额和限制。

配额用于限制您的 Google Cloud 项目可使用的共享 Google Cloud 资源（包括硬件、软件和网络组件）的数量。因此，有以下功能的系统具有配额：

监控 Google Cloud 产品和服务的使用情况或消耗情况。
出于某些原因限制这些资源的消耗量，包括确保公平性和减少使用量高峰。
维护可自动强制执行规定限制的配置。
提供请求或更改配额的方法。

在大多数情况下，当超过配额时，系统会立即阻止对相关 Google 资源的访问，并且您尝试执行的任务将失败。在大多数情况下，配额适用于每个 Google Cloud 项目，并由使用该 Google Cloud 项目的所有应用和 IP 地址共享。

如需增加或减少大多数配额，请使用 Google Cloud 控制台。如需了解详情，请参阅申请更高的配额。

Speech-to-Text 资源也有限制。这些限制与配额系统无关。除非另有说明，否则无法更改限制。

本文介绍 Cloud Speech-to-Text 的当前 API 限制和用量限额。如果这些限制和用量限额发生任何更改，我们会相应地更新本页面以反映这些更改。我们保留更改这些限制的权利。

内容限制

提供给 Speech-to-Text 的内容采用音频数据的形式，可在请求的 content 字段中直接指定，也可在请求的 uri 字段中以 Google Cloud Storage URI 的形式引用。使用本地文件发送至 API 的所有单个请求的大小不能超过 10 MB。对于 Recognize 和 LongRunningRecognize 方法，此限制适用于发送的请求大小。对于 StreamingRecognize 方法，10 MB 的限制适用于初始 StreamingRecognize 请求和数据流中每一条消息的大小。超出此限制时，系统会抛出错误。使用存储在 Google Cloud Storage 存储分区中的音频数据发送的请求不受大小限制。

该 API 对此类内容的大小有以下限制（可能会更改）。

内容限制	音频时长
同步请求	约 1 分钟
异步请求	约 480 分钟*
流式请求	约 5 分钟**

* 如果音频时长超过约 1 分钟，则必须使用 uri 字段来引用 Google Cloud Storage 中的音频文件。
** 如果您需要流式传输超过 5 分钟的内容，请参阅无限流式传输教程。

对于 StreamingRecognize 请求，必须以接近实时的速率发送音频。

如果内容超出这些限制，系统会在尝试处理内容时产生错误。如需了解详情，请参阅错误消息和问题排查。

您还可以在任何请求中提供一个 PhraseSet 资源，内含特定于该请求的短语列表。（此情况下单个字词也被视为一个短语）。以下限制适用于此类情况：

语音自适应限制	值
每个请求的短语数	5000
每个请求的总字符数	10 万
每个短语的字符数	100

请求限制

Speech-to-Text 的当前 API 用量限额如下（可能会更改）：

限制类型	用量限额
每 60 秒的识别请求数*	900
每 60 秒的自适应资源请求数*	10
每天处理量	480 小时音频

* 每个 StreamingRecognize 会话都被视为单个请求，即使该流中包含多帧 StreamingRecognizeRequest 音频也是如此。

当请求和/或尝试处理超出这些限制的音频时，系统将会产生错误。如需了解详情，请参阅错误消息和问题排查。

这些限制适用于每个 Speech-to-Text 开发者项目，并且使用给定开发者项目的所有应用和 IP 地址消耗的用量均计入该限额。