Ubicación del micrófono

En esta sección, se enumeran las especificaciones mínimas del micrófono y el sistema de audio en una implementación de voz. El micrófono determina el rendimiento de la biblioteca de Speech.

1.1. Cantidad y posición

  • Se debe tener al menos un micrófono orientado al usuario.
  • Dos micrófonos con espaciado entre centros (66 mm y 71 mm) en una superficie plana frente al usuario (recomendado).
  • Coloca el dispositivo fuera de las fuentes de sonido para minimizar el acoplamiento de audio entre el micrófono y las bocinas.

1.2. Preprocesamiento de audio

  • Debes proporcionar a la aplicación de voz acceso a la señal del micrófono sin procesar.
  • No realices procesamientos no lineales o de variantes de tiempo en el audio.
  • No realices conformación de haces, otras técnicas de combinación de micrófonos ni otro preprocesamiento de audio en la señal de audio proporcionada a la aplicación de voz (recomendado).

1.3 Tasa de muestreo

Las implementaciones deben usar una tasa de muestreo de micrófono de 16 KHz.

1.4. Rendimiento de las entradas

El micrófono:

  • Debe ser capaz de capturar sonido a 94 dB SPL sin saturación.
  • Debe ser capaz de capturar sonidos típicos en la región lineal de la sensibilidad del micrófono.
  • Debe tener puntos de sobrecarga acústica (AOP) que sean de al menos 10 dB más alto que la entrada generada por el interlocutor al micrófono entre 125 Hz y 8 kHz. En las pruebas de Google, los micrófonos digitales con un AOP superior a 130 dB funcionaron bien.
  • Debe tener una distorsión armónica total (THD) del 1% o menos para una señal de SPL de 94 dB entre 100 Hz y 8 kHz.
  • La respuesta de frecuencia de los micrófonos debe ser plana, +/- 3 dB, medida en 1/1 octava de 125 Hz a 8 KHz. Los micrófonos que pueden lograr una respuesta plana pueden corregirse a través de filtros, que deben ser lineales y sin variantes.

1.5. Señal de entrada

La señal de entrada a la aplicación de voz desde el micrófono debe cumplir con estos requisitos:

  • Se debe configurar el parámetro de sensibilidad del micrófono con precisión en función de las lecturas calibradas del micrófono.
    • Registra la respuesta de frecuencia del micrófono del DUT cuando se reproduce la señal desde la bocina de referencia calibrada.
    • La señal de entrada para los micrófonos es 94 dB SPL.
    • A 16 kHz, profundidad de 24 a 32 bits, señal de entrada a la aplicación de voz: dentro de +/- 3 dB de un RMS de sensibilidad del micrófono.

1.6. Profundidad de bits

La profundidad de bits de la señal del micrófono a la voz no debe ser inferior a 16 bits.