Ubicación del micrófono
En esta sección, se enumeran las especificaciones mínimas del micrófono y el sistema de audio en una implementación de voz. El micrófono determina el rendimiento de la biblioteca de Speech.
1.1. Cantidad y posición
- Se debe tener al menos un micrófono orientado al usuario.
- Dos micrófonos con espaciado entre centros (66 mm y 71 mm) en una superficie plana frente al usuario (recomendado).
- Coloca el dispositivo fuera de las fuentes de sonido para minimizar el acoplamiento de audio entre el micrófono y las bocinas.
1.2. Preprocesamiento de audio
- Debes proporcionar a la aplicación de voz acceso a la señal del micrófono sin procesar.
- No realices procesamientos no lineales o de variantes de tiempo en el audio.
- No realices conformación de haces, otras técnicas de combinación de micrófonos ni otro preprocesamiento de audio en la señal de audio proporcionada a la aplicación de voz (recomendado).
1.3 Tasa de muestreo
Las implementaciones deben usar una tasa de muestreo de micrófono de 16 KHz.
1.4. Rendimiento de las entradas
El micrófono:
- Debe ser capaz de capturar sonido a 94 dB SPL sin saturación.
- Debe ser capaz de capturar sonidos típicos en la región lineal de la sensibilidad del micrófono.
- Debe tener puntos de sobrecarga acústica (AOP) que sean de al menos 10 dB más alto que la entrada generada por el interlocutor al micrófono entre 125 Hz y 8 kHz. En las pruebas de Google, los micrófonos digitales con un AOP superior a 130 dB funcionaron bien.
- Debe tener una distorsión armónica total (THD) del 1% o menos para una señal de SPL de 94 dB entre 100 Hz y 8 kHz.
- La respuesta de frecuencia de los micrófonos debe ser plana, +/- 3 dB, medida en 1/1 octava de 125 Hz a 8 KHz. Los micrófonos que pueden lograr una respuesta plana pueden corregirse a través de filtros, que deben ser lineales y sin variantes.
1.5. Señal de entrada
La señal de entrada a la aplicación de voz desde el micrófono debe cumplir con estos requisitos:
- Se debe configurar el parámetro de sensibilidad del micrófono con precisión en función de las lecturas calibradas del micrófono.
- Registra la respuesta de frecuencia del micrófono del DUT cuando se reproduce la señal desde la bocina de referencia calibrada.
- La señal de entrada para los micrófonos es 94 dB SPL.
- A 16 kHz, profundidad de 24 a 32 bits, señal de entrada a la aplicación de voz: dentro de +/- 3 dB de un RMS de sensibilidad del micrófono.
1.6. Profundidad de bits
La profundidad de bits de la señal del micrófono a la voz no debe ser inferior a 16 bits.