衡量并提高准确率

在本快速入门中,您将了解如何衡量和提高 Google Cloud Speech-to-Text 处理音频数据的准确率。此外,您还可以探索 API 中提供的各种模型和选项,用于提高转写准确率。您将探索如何使用 Google Cloud 控制台中的 Speech-to-Text 界面和标准答案文件来衡量准确率并深入了解 Speech-to-Text 系统。

机器学习 (ML) 系统本质上会出现不准确,并且自动语音识别 (ASR) 系统(也称为 Speech-to-Text 系统)也不例外。准确地衡量准确率与具体的应用场景和正在评估的系统密切相关,因为录音质量和声学条件之间的差异可能对准确率产生很大影响。因此,为所有客户和应用场景提供了单一准确率得分并不实际。确保在面向生产的关键系统性能中,ASR 系统性能的可靠性。此外,请务必了解 Speech-to-Text 在系统更广泛的上下文中的表现。

在本快速入门指南中,请使用行业标准方法进行比较,即 字词错误率 (WER),通常缩写为 WER。如需详细了解如何计算和解读 WER,请参阅衡量并提高语音准确率。我们开始吧。

Speech-to-Text 控制台使用入门

确保您已注册 Google Cloud 账号并创建项目。 1. 前往 Google Cloud 控制台中的“语音”,然后进入 Speech-to-Text 界面。2. 借助在听觉上展示您的使用场景以及您打算如何使用 ASR 系统的音频文件,按照快速入门说明使用 Speech-to-Text 进行第一次转写。

计算转写准确率

  1. 成功转写音频文件后,请使用 Transcription Accuracy 部分。在计算转写的准确率之前,此部分保持为空。
  2. 使用该部分顶部的 Upload Ground Truth(上传标准答案)按钮,您可以开始计算准确率。
    Speech-to-Text 转写详情页面的屏幕截图,其中显示了转写准确率部分和上传标准答案按钮

指定标准答案

  1. 如需计算转写的准确率,请提供标准答案文件。该文件是 .txt.csv 文件,通常是人工生成的转写文件,其中包含用于比较的正确或预期的转写内容。
  2. gs://cloud-samples-data/speech/brooklyn_bridge.wav 为例。标准答案文件包含:How old is the Brooklyn Bridge。如果您没有可用的标准答案文件,建议您以文本格式下载转写内容。根据需要修改转写文件。上传转写文件作为标准答案文件。
  3. 使用上传功能或现有 Cloud Storage 文件,指定标准答案文件,然后点击保存
    Speech-to-Text 转写创建页面的屏幕截图,其中显示了标准答案文件的选择或上传。

确认标准答案

  1. 点击保存后,系统会显示一条提示,确认指定的标准答案文件正确无误。验证标准答案文件是否准确表示正确的转写内容,因为它直接影响准确率指标。
  2. 点击确认以继续操作。
    Speech-to-Text 转写页面的屏幕截图,其中显示了上传的标准答案文件的内容。

查看评估结果

  1. 根据输入数据的大小,评估过程可能需要一段时间,并且在完成时会显示结果。
  2. 评估完成后,系统会显示以下部分:
    • 转写准确率表、准确率指标,以及指向在该过程中使用的标准答案文件的链接。
    • Transcription,包含用于与标准答案文件进行比较的切换开关,以及准确率指标和突出显示内容的细分。
  3. 查看并解读准确率结果,以了解 Speech-to-Text 识别器的表现,用于识别有待改进的方面,因为这些结果会因所使用的输入和转写内容而异。在以下示例中,您可以看到准确率结果的指示性情况,提供了有关优化 Google Cloud Speech-to-Text 系统的宝贵数据洞见。
    • 0% WER 的示例:
      Speech-to-Text 转写准确率页面的屏幕截图,其中显示了字词错误率为 0% 的给定转写的计算评估结果。
    • 40% WER 的示例:
      Speech-to-Text 转写准确率页面的屏幕截图,其中显示了字词错误率为 40% 的给定转写的计算评估结果。

可选:更新标准答案

您可以针对现有转写内容测试其他标准答案,方法是重新附加其他文件,然后使用更新后的标准答案文件重复执行第 3 步和第 4 步。

自行试用

如果您是 Google Cloud 新手,请创建一个账号来评估 Speech-to-Text 在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。

免费试用 Speech-to-Text