在本快速入门中,您将了解如何衡量和提高 Google Cloud Speech-to-Text 处理音频数据的准确率。此外,您还可以探索 API 中提供的各种模型和选项,以提高转录准确率。您将探索如何使用 Google Cloud 控制台中的 Speech-to-Text 界面和标准答案文件来衡量准确率并深入了解 Speech-to-Text 系统。
机器学习 (ML) 系统本质上会出现不准确,并且自动语音识别 (ASR) 系统(也称为 Speech-to-Text 系统)也不例外。准确地衡量准确率与具体的应用场景和正在评估的系统密切相关,因为录音质量和声学条件之间的差异可能对准确率产生很大影响。因此,为所有客户和应用场景提供了单一准确率得分并不实际。确保在面向生产的关键系统性能中,ASR 系统性能的可靠性。此外,请务必了解 Speech-to-Text 在系统更广泛的上下文中的表现。
在本快速入门指南中,请使用行业标准方法进行比较,即 字词错误率 (WER),通常缩写为 WER。如需详细了解如何计算和解读 WER,请参阅衡量和提高语音准确率。我们开始吧。
Speech-to-Text 控制台使用入门
确保您已注册 Google Cloud 账号并创建项目。 1. 前往 Google Cloud 控制台中的“语音”,然后进入 Speech-to-Text 界面。2. 借助在听觉上展示您的使用场景以及您打算如何使用 ASR 系统的音频文件,按照快速入门说明使用 Speech-to-Text 进行第一次转写。
计算转写准确率
- 成功转写音频文件后,请使用
Transcription Accuracy
部分。在计算转写的准确率之前,此部分保持为空。 - 使用该部分顶部的 Upload Ground Truth(上传标准答案)按钮,您可以开始计算准确率。
指定标准答案
- 如需计算转写的准确率,请提供标准答案文件。该文件是
.txt
或.csv
文件,通常是人工生成的转写文件,其中包含用于比较的正确或预期的转写内容。 - 以
gs://cloud-samples-data/speech/brooklyn_bridge.wav
为例。标准答案文件包含:How old is the Brooklyn Bridge
。如果您没有可用的标准答案文件,建议您以文本格式下载转写内容。根据需要修改转写文件。上传转写文件作为标准答案文件。 - 使用上传或现有的 Cloud Storage 文件,指定标准答案文件,然后点击保存。
确认标准答案
- 点击保存后,系统会显示一条提示,确认指定的标准答案文件正确无误。验证标准答案文件是否准确表示正确的转写内容,因为它直接影响准确率指标。
- 点击确认以继续操作。
查看评估结果
- 根据输入数据的大小,评估过程可能需要一段时间,并且在完成时会显示结果。
- 评估完成后,系统会显示以下部分:
- 转写准确率表、准确率指标,以及指向在该过程中使用的标准答案文件的链接。
Transcription
,包含用于与标准答案文件进行比较的切换开关,以及准确率指标和突出显示内容的细分。
- 查看并解读准确率结果,以了解 Speech-to-Text 识别器的表现,用于识别有待改进的方面,因为这些结果会因所使用的输入和转写内容而异。在以下示例中,您可以看到准确率结果的指示性情况,提供了有关优化 Google Cloud Speech-to-Text 系统的宝贵数据洞见。
- 0% WER 的示例:
- 40% WER 的示例:
可选:更新标准答案
您可以针对现有转写内容测试其他标准答案,方法是重新附加其他文件,然后使用更新后的标准答案文件重复执行第 3 步和第 4 步。
自行试用
如果您是 Google Cloud 新手,请创建一个账号来评估 Speech-to-Text 在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
免费试用 Speech-to-Text