衡量并提高语音准确率

概览

自动语音识别 (ASR),也称为机器转录或 Speech-to-Text (STT),使用机器学习将包含语音的音频转换为文本。ASR 有许多应用,包括但不限于字幕、虚拟助理、交互式语音响应 (IVR)、口录等。然而,机器学习系统很少 100% 准确,并且 ASR 也不例外。如果您计划将 ASR 用于关键系统,请务必衡量其准确率或整体质量,以了解其在集成它的更广泛系统中的表现情况。

测量准确率后,您可以调整系统,以针对特定情况提供更高的准确率。在 Google 的 Cloud Speech-to-Text API 中,可以通过选择最合适的识别模型以及使用我们的 Speech Adaptation API 来完成准确率调整。我们提供针对各种应用场景定制的各种模型,例如长音频、医疗或电话对话。

定义语音准确率

可以通过多种方式来衡量语音准确率。您可以根据需要使用多个指标。不过,用于比较的行业标准方法是字词错误率 (WER),通常缩写为 WER。WER 测量整个集合中不正确的单词转录的百分比。WER 越低,表示系统越准确。

您可能还会看到在 ASR 准确性上下文中使用的术语“标准答案”。标准答案是 100% 准确的转录(通常由人工提供),用于比较和衡量准确率。

字词错误率 (WER)

WER 是可能出现的三种类型的转录错误的组合:

  • 插入错误 (I):假设转录文本中存在的字词,但它们并不存在于标准答案中。
  • 替代错误 (S):同时存在于假设和标准答案中,但未正确转录的字词。
  • 删除错误 (D):不存在于假设中,但存在于标准答案中的字词。

\[WER = {S+R+Q \over N}\]

如需找到 WER,请将其中每个错误的总数除以标准答案转录中的字词总数 (N)。在准确率非常低的情况下(例如,插入大量新文本时),WER 可能大于 100%。注意:替代变量本质上是先删除再插入,并且某些替代变量不如其他替代变量严重。例如,替换单个字母与替换单词可能存在差异。

WER 与置信度分数的关系

WER 指标与置信度分数无关,通常它们不相互。置信度分数基于可能性,而 WER 基于字词是否正确识别。如果字词没有正确识别,则即使是轻微的语法错误也可能会导致 WER 过高。正确识别的字词会导致 WER 较低,但这仍然可能导致较低的可能性;如果一个字词不够频繁或音频非常杂乱,则会使置信度较低。

同样,频繁使用的字词更有可能由 ASR 正确转录,从而使置信度分数较高。例如,如果识别“I”和“eye”之间存在差异,则可能会具有较高的置信度,因为“I”是一个更流行的字词,但“I”会降低 WER 指标。

总之,置信度和 WER 指标是独立的,不应关联。

规范化

在计算 WER 指标时,机器转录会与人工提供的标准答案转录内容进行比较。在比较完成之前,对两个转录文本进行规范化。将机器转录与人工提供的真实转录进行比较时,标点符号会被移除,且大写字母也会被忽略。

标准答案惯例

请务必注意,任何给定音频均不存在单一的人类认可转录格式。您需要考虑诸多方面。例如,音频可能包含其他非语音发音,例如“huh”“yep”“umm”。一些 Cloud STT 模型(如“medical_conversation”)包含这些发音,而其他 STT 模型则不包含。因此,标准答案惯例必须与待评估模型的惯例相匹配。以下概要指南用于为给定音频准备标准答案文本转录。

  • 除了标准字母之外,您还可以使用 0-9 中的数字。
  • 请勿使用“@”“#”“$”和“.”等符号。请使用“at”“hash”“dollar”“dot”等字词。
  • 使用“%”,但仅在前面加上数字时;否则,请使用“percent”一词。
  • 仅当“\$”后跟数字时,才使用“\$”,例如“Milk is \$3.99”。

  • 对小于 10 的数字使用字词。

    • 例如,“I have four cats and 12 hats”。
  • 请使用数字表示度量、货币以及大因数,例如 million、billion 或 trillion。例如,请输入“7.5 million”,而不是“seven and a half million”。

  • 在以下情况下,请勿使用缩写:

    正确做法 错误做法
    Warriors versus Lakers Warriors vs Lakers
    I live at 123 Main Street I live at 123 Main St

测量语音准确率

以下步骤可帮助您开始使用音频确定准确率:

收集测试音频文件

收集音频文件的代表性样本,以衡量其质量。此样本应该是随机的,并且应尽可能接近目标环境。例如,如果您想转录呼叫中心的对话,以帮助保证质量,您应该在生产音频所源自的设备上随机选择一些实际通话。如果您的音频是用手机或计算机麦克风录制的,并不能代表您的应用场景,请勿使用录制的音频。

录制至少 30 分钟的音频,以获得具有统计显著性的准确率指标。我们建议使用 30 分钟到 3 小时的音频。本实验为您提供音频。

获取标准答案转录

获取准确的音频转录。这通常涉及目标音频的单人或双通人工转录。您的目标是获得 100% 的准确转录内容,以衡量自动化的结果。

在获取标准答案转录时,请务必尽可能与目标 ASR 系统的转录惯例保持一致。例如,确保标点符号、数字和大小写一致。

获取机器转录,并修复您发现的文本中的任何问题。

获取机器转录

将音频发送到 Google Speech-to-Text API,并使用 Speech-to-Text 界面获取您的假设转录。

将标准答案与音频配对

在界面工具中,点击“附加标准答案”,将给定的音频文件与提供的标准答案相关联。完成附加后,您可以看到 WER 指标以及所有差异的直观呈现。