Descripción general
El reconocimiento de voz automático (ASR), también conocido como transcripción automática o Speech-to-Text (STT), usa el aprendizaje automático para convertir audio con voz en texto. El ASR tiene muchas aplicaciones que van desde la subtitulación hasta los asistentes virtuales, las respuestas de voz interactivas (IVR), el dictado y mucho más. Sin embargo, los sistemas de aprendizaje automático rara vez son 100% precisos, y el ASR no es una excepción. Si planeas usar el ASR para los sistemas esenciales, es muy importante medir su exactitud o calidad general a fin de comprender su rendimiento en el sistema más amplio que lo integra.
Una vez que midas la exactitud, es posible ajustar los sistemas para proporcionar aún más exactitud en tu situación específica. En la API de Cloud Speech-to-Text de Google, el ajuste de exactitud se puede elegir mediante el modelo de reconocimiento más adecuado y mediante nuestra API de Adaptación de voz. Ofrecemos una amplia variedad de modelos adaptados para diferentes casos de uso, como audios largos o conversaciones médicas o por teléfono.
Define la exactitud de la voz
La exactitud de la voz se puede medir de varias maneras. Puede ser útil que uses varias métricas, según tus necesidades. Sin embargo, el método estándar de la industria para comparar es la tasa de error de palabra (WER), que suele abreviarse como WER. La WER mide el porcentaje de transcripciones de palabras incorrectas en todo el conjunto. Una WER más baja significa que el sistema es más exacto.
También es posible que veas el término verdad de referencia, que se usa en el contexto de la precisión de la ASR. La verdad fundamental es la transcripción 100% exacta, por lo general, proporcionada por personas, que se usa para comparar y medir la exactitud.
Tasa de error de palabra (WER)
La WER es la combinación de tres tipos de errores de transcripción, que pueden ocurrir:
- Error de inserción (I): Palabras presentes en la transcripción de la hipótesis que no están presentes en la verdad fundamental.
- Errores de sustitución (S): Son palabras que están presentes en la hipótesis y en la verdad fundamental, pero que no se transcriben correctamente.
- Errores de eliminación (D): Palabras que faltan en la hipótesis, pero que están presentes en la verdad fundamental.
\[WER = {S+R+Q \over N}\]
Para encontrar la WER, agrega la cantidad total de cada uno de estos errores y divide el número por la cantidad total de palabras (N) en la transcripción de la verdad fundamental. La WER puede ser superior al 100% en situaciones con exactitud muy baja, por ejemplo, cuando se inserta una gran cantidad de texto nuevo. Nota: La sustitución es, en esencia, una eliminación seguida de una inserción, y algunas sustituciones son menos graves que otras. Por ejemplo, puede haber una diferencia entre sustituir una sola letra y sustituir una palabra.
Relación de la WER a una puntuación de confianza
La métrica WER es independiente de una puntuación de confianza y, por lo general, no se correlacionan entre sí. Una puntuación de confianza se basa en la probabilidad, mientras que la WER se basa en si la palabra se identifica de forma correcta o no. Si la palabra no se identifica de forma correcta, significa que incluso los errores gramaticales menores pueden causar una WER alta. Una palabra que se identifica correctamente genera una WER baja, lo que puede conducir a una probabilidad baja, lo que reduce la confianza, incluso si la palabra no es frecuente o el audio es muy ruidoso.
De manera similar, una palabra que se usa con frecuencia puede tener una alta probabilidad de que el ASR la transcriba correctamente, lo que aumenta el nivel de confianza. Por ejemplo, cuando se identifica una diferencia entre "hola" y "ola", es posible que se genere una confianza alta, ya que "hola" es una palabra más popular, pero la métrica WER disminuye.
En resumen, las métricas de confianza y de WER son independientes y no se debe esperar que se correlacionen.
Normalización
Cuando se calcula la métrica de WER, la transcripción de la máquina se compara con una transcripción de verdad fundamental proporcionada por una persona. El texto de ambas transcripciones se normaliza antes de realizar la comparación. Se quita la puntuación y se ignora la mayúscula cuando se compara la transcripción de la máquina con la transcripción de verdad fundamental proporcionada por una persona.
Convenciones de verdad fundamental
Es importante reconocer que no hay un solo formato de transcripción acordado por las personas para un audio determinado. Hay muchos aspectos que considerar. Por ejemplo, el audio puede tener otras vocalizaciones que no sean discurso, como “uh”, “eh”, “ejem”. Algunos modelos de Cloud STT, como "medical_conversation", incluyen estas vocalizaciones y otras no. Por lo tanto, es importante que las convenciones de verdad fundamental coincidan con las convenciones del modelo que se evalúa. Los siguientes lineamientos de alto nivel se usan para preparar una transcripción de texto de referencia para un audio determinado.
- Además de las letras estándar, puedes usar los dígitos del 0 al 9.
- No uses símbolos como “@”, “#”, “$”, “.”. Usa palabras como "en", "hash", "dólar", "punto".
- Usa “%” pero solo cuando esté precedido por un número; de lo contrario, usa las palabras “por ciento”.
Usa “\$” solo cuando esté seguido por un número, como “La leche está \$3.99”.
Usa palabras para números inferiores a 10.
- Por ejemplo, "Tengo cuatro gatos y 12 sombreros".
Usa números para medidas, monedas y factores grandes, como millones, miles de millones o billones. Por ejemplo, “7.5 millones” en lugar de “siete millones y medio”.
No uses abreviaturas en los siguientes casos:
Correcto Incorrecto Kings versus Lakers Kings vs. Lakers Vivo en 123 Main Street Vivo en 123 Main St.
Mide la exactitud de la voz
Sigue estos pasos para comenzar a determinar la precisión con tu audio:
Recopila archivos de audio de prueba
Recopila una muestra representativa de archivos de audio para medir su calidad. Este debe ser aleatorio y estar lo más cerca posible del entorno de destino. Por ejemplo, si deseas transcribir conversaciones de un centro de atención telefónica para ayudar a garantizar la calidad, debes seleccionar aleatoriamente algunas llamadas reales grabadas en el mismo equipo del que proviene tu audio de producción. Si tu audio está grabado en tu teléfono celular o en tu micrófono de computadora, y no representa tu caso de uso, no uses el audio grabado.
Registra, al menos, 30 minutos de audio para obtener una métrica de exactitud estadísticamente significativa. Te recomendamos que uses entre 30 minutos y 3 horas de audio. En este lab, se te proporciona el audio.
Cómo obtener transcripciones de verdad fundamental
Obtén transcripciones exactas del audio. Por lo general, esto implica una transcripción humana única o doble del audio objetivo. Tu objetivo es tener una transcripción 100% exacta para medir los resultados automatizados.
Es importante cuando obtengas transcripciones de verdad fundamental que coincidan lo más posible con las convenciones de transcripción de tu sistema de ASR de destino. Por ejemplo, asegúrate de que la puntuación, los números y las mayúsculas sean coherentes.
Obtén una transcripción de máquina y corrige cualquier problema en el texto que observes.
Obtén una transcripción de máquina
Envía el audio a la API de Google Speech-to-Text y obtén la transcripción de tu hipótesis con la IU de Speech-to-Text.
Sincroniza la verdad fundamental con el audio
En la herramienta de la IU, haz clic en “Conectar verdad fundamental” para asociar un archivo de audio determinado con la verdad fundamental proporcionada. Después de terminar la conexión, podrás ver tu métrica de WER y la visualización de todas las diferencias.