自定义 Speech-to-Text 模型可帮助您根据自己的具体需求调优语音识别模型。此服务旨在使用特定领域的音频和文本数据,提高语音识别服务在各种环境和用例中的准确性和相关性。
自定义 Speech-to-Text 模型在我们的 Google Cloud 控制台和 API 中都可以访问,它支持在无代码集成环境中训练、评估和部署专用语音模型。在训练时,您只能提供代表音频条件的音频数据,而没有参考转写作为训练集。但是,您需要在评估集中提供音频数据及其参考转写。
创建和使用自定义 Speech-to-Text 模型包括以下步骤:
- 在 Cloud Storage 存储桶中准备并上传训练数据。
- 训练新的自定义模型。
- 使用端点部署和管理自定义模型。
- 在您的应用中使用和评估自定义模型。
工作方式
您可以使用自定义 Speech-to-Text 模型来增强基本转写模型,从而改进转写识别。某些音频条件(包括警报、音乐和过度的背景噪音)可能会给声学带来挑战。某些口音或不寻常的词汇(例如产品名称)同样也会带来挑战。
每个自定义 Speech-to-Text 模型都使用基于 Conformer 的预训练架构作为使用常用语言的专有数据训练的基本模型。在训练过程中,通过调整很大比例的原始权重来调优基本模型,以提升特定于您的应用的领域特定词汇和音频条件的识别。
为了有效训练自定义 Speech-to-Text 模型,您必须提供以下内容:
- 至少 100 个音频小时的训练数据,可以是纯音频,也可以是以相应文本转写作为标准答案的音频。这些数据对于初始训练阶段至关重要,因此模型可以全面学习语音模式和词汇的细微差别。如需了解详情,请参阅创建标准答案数据集。
- 一个包含至少 10 个音频小时的验证数据的单独数据集,相应的文字转写内容作为标准答案。 请参阅我们的数据准备说明,详细了解要遵循的预期格式和标准答案惯例。
训练成功后,您只需点击一下端点,即可在端点中部署自定义 Speech-to-Text 模型,并通过 Cloud Speech-to-Text V2 API 直接使用该模型以进行推断和基准化分析。
支持的模型、语言和区域
自定义 Speech-to-Text 模型支持以下模型、语言和语言区域的组合以进行训练:
语言 | BCP-47 | 基本模型 |
---|---|---|
德语(德国) |
de-DE |
|
英语(澳大利亚) |
en-AU |
|
英语(英国) |
en-GB |
|
英语(印度) |
en-IN |
|
英语(美国) |
en-US |
|
西班牙语(美国) |
es-US |
|
西班牙语(西班牙) |
es-ES |
|
法语(加拿大) |
fr-CA |
|
法语(法国) |
fr-FR |
|
印地语(印度) |
hi-IN |
|
意大利语(意大利) |
it-IT |
|
日语(日本) |
ja-JP |
|
韩语(韩国) |
ko-KR |
|
荷兰语(荷兰) |
nl-NL |
|
葡萄牙语(巴西) |
pt-BR |
|
葡萄牙语(葡萄牙) |
pt-PT |
|
此外,为满足您的数据驻留要求,我们会在不同区域提供训练和部署硬件。以下模型和区域组合支持专用硬件:
基本模型 | Google Cloud 地区 | 支持的任务 |
---|---|---|
|
|
训练和部署 |
|
|
训练和部署 |
配额
对于自定义 Speech-to-Text 模型训练,每个 Google Cloud 项目都应具有足够的默认配额,以便同时运行多个训练作业,从而满足大多数项目的需求,而无需进行额外调整。但是,如果您需要运行更多数量的并发训练作业,或者需要更广泛的标签或计算资源,则需要申请更多配额。
对于提供端点部署的自定义 Speech-to-Text 模型,理论上每个端点的限制为 20 次查询/每秒 (QPS)。如果需要更高的吞吐量,请申请额外的服务配额。
价格
创建和使用自定义 Speech-to-Text 模型涉及某些费用,这些费用主要基于模型训练和后续部署期间使用的资源。具体来说,自定义 Speech-to-Text 模型在典型的模型生命周期中会产生以下费用:
- 训练:您需要为模型训练小时数付费。此时间与训练数据集中的音频小时数成正比。通常,训练需要花费数据集中音频小时数的十分之一。
- 部署:您需要为在端点上部署模型的每个小时付费。
- 推理:您需要按照常规 Speech-to-Text 结算费用,为要转写的音频的流式传输秒数付费。
了解这些费用对于有效的预算和资源分配至关重要。如需了解详情,请参阅“自定义 Speech-to-Text 模型”部分中的 Cloud Speech-to-Text 价格。
后续步骤
请按照以下资源的说明在应用中利用自定义语音模型: