自定义语音模型概览

自定义 Speech-to-Text 模型可帮助您根据自己的具体需求调优语音识别模型。此服务旨在使用特定领域的音频和文本数据,提高语音识别服务在各种环境和用例中的准确性和相关性。

自定义 Speech-to-Text 模型在我们的 Google Cloud 控制台和 API 中都可以访问,它支持在无代码集成环境中训练、评估和部署专用语音模型。在训练时,您只能提供代表音频条件的音频数据,而没有参考转写作为训练集。但是,您需要在评估集中提供音频数据及其参考转写。

创建和使用自定义 Speech-to-Text 模型包括以下步骤:

  1. 在 Cloud Storage 存储桶中准备并上传训练数据。
  2. 训练新的自定义模型。
  3. 使用端点部署和管理自定义模型。
  4. 在您的应用中使用和评估自定义模型。

工作方式

您可以使用自定义 Speech-to-Text 模型来增强基本转写模型,从而改进转写识别。某些音频条件(包括警报、音乐和过度的背景噪音)可能会给声学带来挑战。某些口音或不寻常的词汇(例如产品名称)同样也会带来挑战。

每个自定义 Speech-to-Text 模型都使用基于 Conformer 的预训练架构作为使用常用语言的专有数据训练的基本模型。在训练过程中,通过调整很大比例的原始权重来调优基本模型,以提升特定于您的应用的领域特定词汇和音频条件的识别。

为了有效训练自定义 Speech-to-Text 模型,您必须提供以下内容:

  • 至少 100 个音频小时的训练数据,可以是纯音频,也可以是以相应文本转写作为标准答案的音频。这些数据对于初始训练阶段至关重要,因此模型可以全面学习语音模式和词汇的细微差别。如需了解详情,请参阅创建标准答案数据集
  • 一个包含至少 10 个音频小时的验证数据的单独数据集,相应的文字转写内容作为标准答案。 请参阅我们的数据准备说明,详细了解要遵循的预期格式和标准答案惯例。

训练成功后,您只需点击一下端点,即可在端点中部署自定义 Speech-to-Text 模型,并通过 Cloud Speech-to-Text V2 API 直接使用该模型以进行推断和基准化分析。

支持的模型、语言和区域

自定义 Speech-to-Text 模型支持以下模型、语言和语言区域的组合以进行训练:

语言 BCP-47 基本模型

德语(德国)

de-DE

latest_long

英语(澳大利亚)

en-AU

latest_long

英语(英国)

en-GB

latest_long

英语(印度)

en-IN

latest_long

英语(美国)

en-US

latest_long

西班牙语(美国)

es-US

latest_long

西班牙语(西班牙)

es-ES

latest_long

法语(加拿大)

fr-CA

latest_long

法语(法国)

fr-FR

latest_long

印地语(印度)

hi-IN

latest_long

意大利语(意大利)

it-IT

latest_long

日语(日本)

ja-JP

latest_long

韩语(韩国)

ko-KR

latest_long

荷兰语(荷兰)

nl-NL

latest_long

葡萄牙语(巴西)

pt-BR

latest_long

葡萄牙语(葡萄牙)

pt-PT

latest_long

此外,为满足您的数据驻留要求,我们会在不同区域提供训练和部署硬件。以下模型和区域组合支持专用硬件:

基本模型 Google Cloud 区域 支持的任务

latest_long

us-east1

训练部署

latest_long

europe-west4

训练部署

配额

对于自定义 Speech-to-Text 模型训练,每个 Google Cloud 项目都应具有足够的默认配额,以便同时运行多个训练作业,从而满足大多数项目的需求,而无需进行额外调整。但是,如果您需要运行更多数量的并发训练作业,或者需要更广泛的标签或计算资源,则需要申请更多配额。

对于提供端点部署的自定义 Speech-to-Text 模型,理论上每个端点的限制为 20 次查询/每秒 (QPS)。如果需要更高的吞吐量,请申请额外的服务配额。

价格

创建和使用自定义 Speech-to-Text 模型涉及某些费用,这些费用主要基于模型训练和后续部署期间使用的资源。具体来说,自定义 Speech-to-Text 模型在典型的模型生命周期中会产生以下费用:

  • 训练:您需要为模型训练小时数付费。此时间与训练数据集中的音频小时数成正比。通常,训练需要花费数据集中音频小时数的十分之一。
  • 部署:您需要为在端点上部署模型的每个小时付费。
  • 推理:您需要按照常规 Speech-to-Text 结算费用,为要转写的音频的流式传输秒数付费。

了解这些费用对于有效的预算和资源分配至关重要。如需了解详情,请参阅“自定义 Speech-to-Text 模型”部分中的 Cloud Speech-to-Text 价格

后续步骤

请按照以下资源的说明在应用中利用自定义语音模型: