衡量并提高准确率

在本快速入门中，您将了解如何衡量和提高 Google Cloud Speech-to-Text 处理音频数据的准确率。此外，您还可以探索 API 中提供的各种模型和选项，用于提高转写准确率。您将探索如何使用 Google Cloud 控制台中的 Speech-to-Text 界面和标准答案文件来衡量准确率并深入了解 Speech-to-Text 系统。

机器学习 (ML) 系统本质上会出现不准确，并且自动语音识别 (ASR) 系统（也称为 Speech-to-Text 系统）也不例外。准确地衡量准确率与具体的应用场景和正在评估的系统密切相关，因为录音质量和声学条件之间的差异可能对准确率产生很大影响。因此，为所有客户和应用场景提供了单一准确率得分并不实际。确保在面向生产的关键系统性能中，ASR 系统性能的可靠性。此外，请务必了解 Speech-to-Text 在系统更广泛的上下文中的表现。

在本快速入门指南中，请使用行业标准方法进行比较，即字词错误率 (WER)，通常缩写为 WER。如需详细了解如何计算和解读 WER，请参阅衡量并提高语音准确率。我们开始吧。

Speech-to-Text 控制台使用入门

执行此任务所需的权限

您必须拥有以下权限才能执行此任务：

storage.buckets.get
storage.buckets.list

在项目级层或存储桶级层：

storage.objects.create
storage.objects.get
storage.objects.list
storage.objects.update

确保您已注册 Google Cloud 账号并创建项目。 1. 前往 Google Cloud 控制台中的“语音”，然后进入 Speech-to-Text 界面。2. 借助在听觉上展示您的使用场景以及您打算如何使用 ASR 系统的音频文件，按照快速入门说明使用 Speech-to-Text 进行第一次转写。

计算转写准确率

成功转写音频文件后，请使用 Transcription Accuracy 部分。在计算转写的准确率之前，此部分保持为空。
使用该部分顶部的 Upload Ground Truth（上传标准答案）按钮，您可以开始计算准确率。

指定标准答案

如需计算转写的准确率，请提供标准答案文件。该文件是 .txt 或 .csv 文件，通常是人工生成的转写文件，其中包含用于比较的正确或预期的转写内容。
以 gs://cloud-samples-data/speech/brooklyn_bridge.wav 为例。标准答案文件包含：How old is the Brooklyn Bridge。如果您没有可用的标准答案文件，建议您以文本格式下载转写内容。根据需要修改转写文件。上传转写文件作为标准答案文件。
使用上传功能或现有 Cloud Storage 文件，指定标准答案文件，然后点击保存。

确认标准答案

点击保存后，系统会显示一条提示，确认指定的标准答案文件正确无误。验证标准答案文件是否准确表示正确的转写内容，因为它直接影响准确率指标。
点击确认以继续操作。

查看评估结果

根据输入数据的大小，评估过程可能需要一段时间，并且在完成时会显示结果。
评估完成后，系统会显示以下部分：
- 转写准确率表、准确率指标，以及指向在该过程中使用的标准答案文件的链接。
- Transcription，包含用于与标准答案文件进行比较的切换开关，以及准确率指标和突出显示内容的细分。
查看并解读准确率结果，以了解 Speech-to-Text 识别器的表现，用于识别有待改进的方面，因为这些结果会因所使用的输入和转写内容而异。在以下示例中，您可以看到准确率结果的指示性情况，提供了有关优化 Google Cloud Speech-to-Text 系统的宝贵数据洞见。
- 0% WER 的示例：
- 40% WER 的示例：

可选：更新标准答案

您可以针对现有转写内容测试其他标准答案，方法是重新附加其他文件，然后使用更新后的标准答案文件重复执行第 3 步和第 4 步。

自行试用

如果您是 Google Cloud 新手，请创建一个账号来评估 Speech-to-Text 在实际场景中的表现。新客户还可获享 $300 赠金，用于运行、测试和部署工作负载。

免费试用 Speech-to-Text