麦克风位置

本部分列出了语音实现中麦克风和音频系统的最低规格。麦克风决定了语音库的性能。

1.1. 数量和位置

  • 必须至少有一个面向用户的麦克风。
  • (推荐)在面向用户的平面上放置两个中心间距(66 毫米和 71 毫米)的麦克风。
  • 远离声源放置,以最大限度地减少麦克风与扬声器之间的音频耦合。

1.2. 音频预处理

  • 必须为语音应用提供对原始麦克风信号的访问权限。
  • 不要对音频执行时间变体或非线性处理。
  • (推荐)不要对提供给语音应用的音频信号执行 Beam 合成、其他麦克风组合技术或其他音频预处理。

1.3. 采样率

实现必须使用 16 KHz 的麦克风采样率。

1.4. 输入性能

麦克风:

  • 必须能够以 94 dB SPL 的形式捕获声音,且不饱和。
  • 必须能够捕获麦克风灵敏度的线性区域中的典型声音。
  • 在 125 Hz 和 8 KHz 之间,声音过载点 (AOP) 必须比扬声器生成的麦克风输入至少大 10 dB。在 Google 测试中,AOP 大于 130 dB 的数字麦克风表现良好。
  • 对于 100 Hz 和 8 KHz 之间的 94 dB SPL 信号,总谐波失真 (THD) 必须为 1% 或更小。
  • 麦克风的频率响应必须平滑,+/- 3dB,以 125 Hz 至 8 KHz 的 1/1 倍频程测量。可能要实现平滑响应的麦克风可通过滤波器进行校正,线性和时间不变。

1.5. 输入信号

来自麦克风的语音应用的输入信号必须满足以下要求:

  • 必须根据麦克风的校准读数准确配置麦克风灵敏度参数。
    • 播放来自校准的参考扬声器的信号时,录制 DUT 麦克风的频率响应。
    • 麦克风的输入信号为 94 dB SPL。
    • 在 16KHz 时,深度为 24-32 位,用于语音应用的输入信号:在麦克风灵敏度的 RMS 的 +/- 3dB 范围内。

1.6. 位元深度

麦克风信号到语音的位深不得小于 16 位。