通用语音模型 (USM)

通用语音模型 (USM) 是 Google 推出的新一代 Speech-to-Text 模型。这些模型代表了 Google 调研团队多年来的工作成果。现在,我们实现了 USM 的首个迭代版本。不过,目前这些模型只是一系列令人兴奋的新模型和研究的开始,后续我们会持续推出更多精彩的新功能。随着我们不断完善该产品,您可能会看到与 USM 相关的模型更新和其他模型标识符。

通用语音模型使用不同于当前语音模型的架构进行训练。一个模型里面就可以包含许多不同语言的数据。尽管训练数据和模型是统一的,但仍然有必要指定模型应以何种语言尝试识别语音。USM 不支持其他模型的某些 Google Speech 功能;如需查看完整列表,请参阅下文。此模型生成的输出也可能与其他 Google Speech 模型不同。

模型标识符

USM 可在 Cloud Speech-to-Text API v2 中使用;您可以像使用任何其他模型一样加以利用。

USM 模型的标识符为:usm

您可以在创建识别器时指定此模型,以利用通用语音模型 (USM)。

价格

在非公开预览版期间,USM 可免费使用。我们将在稍后制定模型价格。

可用的 API 方法

通用语音模型大批量处理语音。这意味着,与其他 Google Speech-to-Text 模型不同,通用语音模型可能不适合真正的“实时”使用。USM 可通过以下 API 方法获得:

  • v2 Speech.Recognize(非常适合短于 1 分钟的短音频)
  • v2 Speech.BatchRecognize(非常适合 1 分钟 - 8 小时的长音频)

以下 API 方法提供通用语音模型:

  • v2 Speech.StreamingRecognize
  • v1 Speech.StreamingRecognize
  • v1 Speech.Recognize
  • v1 Speech.LongRunningRecognize
  • v1p1beta1 Speech.StreamingRecognize
  • v1p1beta1 Speech.Recognize
  • v1p1beta1 Speech.LongRunningRecognize

语言

您可以传递以下语言代码:

  • af-ZA
  • am-ET
  • ar-EG
  • az-AZ
  • be-BY
  • bg-BG
  • bn-BD
  • ca-ES
  • zh-Hans-CN
  • cs-CZ
  • da-DK
  • de-DE
  • el-GR
  • en-AU
  • en-GB
  • en-IN
  • en-US
  • es-US
  • et-EE
  • eu-ES
  • fa-IR
  • fi-FI
  • fil-PH
  • fr-CA
  • fr-FR
  • gl-ES
  • gu-IN
  • iw-IL
  • hi-IN
  • hu-HU
  • hy-AM
  • id-ID
  • is-IS
  • it-IT
  • ja-JP
  • jv-ID
  • ka-GE
  • kk-KZ
  • km-KH
  • kn-IN
  • ko-KR
  • lo-LA
  • lt-LT
  • lv-LV
  • mk-MK
  • ml-IN
  • mn-MN
  • mr-IN
  • ms-MY
  • my-MM
  • no-NO
  • ne-NP
  • nl-NL
  • pa-Guru-IN
  • pl-PL
  • pt-BR
  • ro-RO
  • ru-RU
  • si-LK
  • sk-SK
  • sl-SI
  • sq-AL
  • sr-RS
  • su-ID
  • sv-SE
  • sw
  • ta-IN
  • te-IN
  • th-TH
  • tr-TR
  • uk-UA
  • ur-PK
  • uz-UZ
  • vi-VN
  • yue-Hant-HK
  • zu-ZA
  • as-IN
  • ast-ES
  • bs-BA
  • ceb-PH
  • ckb-IQ
  • cy-GB
  • ha-NG
  • hr-HR
  • kam-KE
  • kea-CV
  • ky-KG
  • lb-LU
  • ln-CD
  • luo-KE
  • mi-NZ
  • mt-MT
  • nso-ZA
  • ny-MW
  • oc-FR
  • or-IN
  • ps-AF
  • sd-IN
  • sn-ZW
  • so-SO
  • tg-TJ
  • wo-SN
  • yo-NG

功能支持和限制

通用语音模型尚不支持许多 STT API 功能。请参阅下文,了解具体的限制。

  • 置信度分数 - API 会返回一个值,但这不是真正的置信度分数。
  • 语音自适应 - 不支持自适应功能。
  • 区分 - 不支持自动区分。不支持声道分离。
  • 标点符号 - 不支持语音标点符号。不支持自动加注标点符号。
  • 强制规范化 - 不支持。
  • 字词级置信度 - 不支持。
  • 语言检测 - 不支持。
  • 字词计时 - 不支持。

关于标点符号的注意事项

在非公开预览版阶段,USM 不会生成任何类型的标点符号;评估时应考虑这一因素。我们知道,标点符号对于 USM 适合的许多使用场景非常重要,因此我们正在努力尽快添加自动加注标点符号功能。

Cloud 控制台界面使用入门

  1. 确保您已注册 Google Cloud 帐号并创建了一个项目。您必须使用已列入 USM 许可名单的项目和帐号。
  2. 前往 Google Cloud 控制台中的语音
  3. 启用 API(如果尚未启用)。
  4. 创建使用通用语音模型的 STT 识别器

    • 前往“识别器”标签页,然后点击“创建”。

      Speech-to-text 识别器列表屏幕截图。

    • 创建识别器页面中,输入 USM 的必填字段。

      Speech-to-text 创建识别器页面屏幕截图。

      • 随意为识别器命名。
      • USM 目前仅在 us-central1 区域提供。选择 region,然后选择 us-central1
      • 选择“usm”作为模型。如果您在模型列表中没有看到“usm”,则说明您的项目未列入许可名单。
      • 选择您要使用的语言。您打算测试的每种语言都需要一个识别器。
      • 请勿选择其他功能。
  5. 确保您在 us-central1 区域有一个 STT 界面工作区。您可能需要创建新的工作区。

    • 通过 console.cloud.google.com/speech/transcriptions 访问转写页面
    • 在“转写”页面中,点击 New Transcription(新建转写)。
    • 打开 Workspace 下拉菜单,然后点击“新建工作区”以创建用于转写的工作区。
    • Create a new workspace 侧边导航栏中,点击 Browse
    • 点击“新建存储桶”图标以创建代表此工作区的 Cloud Storage 存储桶。
    • 输入存储桶的名称,然后点击“继续”。
    • [重要提示]从下拉菜单中选择 regionus-central1,以确保通用语音模型能够处理您的音频。
    • 点击“create”以创建 Cloud Storage 存储桶。
    • 创建存储桶后,点击 select 以选择要使用的存储桶。
    • 点击 create 以完成为 speech-to-text 界面创建工作区的过程。
  6. 对实际音频执行转写。

    Speech-to-text 转写创建页面屏幕截图,其中显示了文件选择或上传。
    • 在“New Transcription”(新建转写)页面中,通过上传(“本地上传”)或指定现有的 Cloud Storage 文件(“云端存储空间”)选择音频文件。请注意,界面会尝试自动评估音频文件参数。
    • 点击“继续”以前往“Transcription options”(转写选项)
    Speech-to-text 转写创建页面屏幕截图,其中显示了选择通用语音模型和提交转写作业。
    • 选择您打算使用通用语音模型通过之前创建的识别器进行识别所用的“口语”。
    • 在“模型”下拉菜单中,选择“通用语音模型”
    • 在“识别器”下拉菜单中,选择新创建的识别器
    • 点击 submit 以使用通用语音模型运行第一个识别请求
  7. 查看通用语音模型转写结果

    • 在“转写”页面中,点击相应转写名称以查看其结果
    • 在“Transcription details”(转写详情)页面中,查看转写结果并视需要在浏览器中播放音频

Python 笔记本使用入门

本指南指导您利用 Python 笔记本开始在 STT API v2 上使用 USM。

  1. 确保您已注册 Google Cloud 帐号并创建了一个项目。您必须使用已列入 USM 许可名单的项目和帐号。
  2. 确保您有一个有效的 Python 笔记本环境
  3. 此处查看笔记本,并创建您自己的副本。
  4. 在您的首选执行环境中运行笔记本。按照笔记本中的说明执行操作,它们可帮助您设置身份验证和识别器,然后运行转写请求。