Descripción general
El reconocimiento de voz automatizado (ASR), también conocido como transcripción de máquina o Speech-to-Text (STT), usa el aprendizaje automático para convertir el audio que contiene la voz en texto. El ASR tiene muchas aplicaciones que van desde la subtitulación hasta los asistentes virtuales, las respuestas de voz interactivas (IVR), el dictado y mucho más. Sin embargo, los sistemas de aprendizaje automático rara vez son 100% precisos y el ASR no es la excepción. Si planeas usar el ASR para los sistemas esenciales, es muy importante medir su exactitud o calidad general a fin de comprender su rendimiento en el sistema más amplio que lo integra.
Una vez que midas la exactitud, es posible ajustar los sistemas para proporcionar aún más exactitud en tu situación específica. En la API de Cloud Speech-to-Text de Google, el ajuste de exactitud se puede elegir mediante el modelo de reconocimiento más adecuado y mediante nuestra API de Adaptación de voz. Ofrecemos una amplia variedad de modelos adaptados para diferentes casos de uso, como audios largos o conversaciones médicas o por teléfono.
Define la exactitud de la voz
La exactitud de la voz se puede medir de varias maneras. Puede ser útil que uses varias métricas, según tus necesidades. Sin embargo, el método estándar de la industria para comparar es la tasa de error de palabra (WER), que suele abreviarse como WER. La WER mide el porcentaje de transcripciones de palabras incorrectas en todo el conjunto. Una WER más baja significa que el sistema es más exacto.
Es posible que también veas el término verdad fundamental, en el contexto de la exactitud de ASR. La verdad fundamental es la transcripción 100% exacta, por lo general, proporcionada por personas, que se usa para comparar y medir la exactitud.
Tasa de error de palabra (WER)
La WER es la combinación de tres tipos de errores de transcripción, que pueden ocurrir:
- Error de inserción (I): Palabras presentes en la transcripción de hipótesis que no están presentes en la verdad fundamental.
- Errores de sustitución (S): palabras que están presentes en la hipótesis y en la verdad fundamental, pero no se transcriben de forma correcta.
- Errores de eliminación (D): Palabras que faltan en la hipótesis, pero que están presentes en la verdad fundamental.
\[WER = {S+R+Q \over N}\]
Para encontrar la WER, agrega la cantidad total de cada uno de estos errores y divide el número por la cantidad total de palabras (N) en la transcripción de la verdad fundamental. La WER puede ser superior al 100% en situaciones con exactitud muy baja, por ejemplo, cuando se inserta una gran cantidad de texto nuevo. Nota: La sustitución es básicamente una eliminación seguida de la inserción, y algunas sustituciones son menos graves que otras. Por ejemplo, puede haber una diferencia entre sustituir una sola letra y sustituir una palabra.
Relación de la WER a una puntuación de confianza
La métrica de WER es independiente de una puntuación de confianza y, por lo general, no se correlacionan entre sí. Una puntuación de confianza se basa en la probabilidad, mientras que la WER se basa en si la palabra se identifica de forma correcta o no. Si la palabra no se identifica de forma correcta, significa que incluso los errores gramaticales menores pueden causar una WER alta. Una palabra que se identifica correctamente genera una WER baja, lo que puede conducir a una probabilidad baja, lo que reduce la confianza, incluso si la palabra no es frecuente o el audio es muy ruidoso.
Del mismo modo, una palabra que se usa con frecuencia puede tener una alta probabilidad de que el ASR transcriba de forma correcta, lo que impulsa la puntuación de confianza alta. Por ejemplo, cuando se identifica una diferencia entre "hola" y "ola", es posible que se genere una confianza alta, ya que "hola" es una palabra más popular, pero la métrica WER disminuye.
En resumen, las métricas de confianza y de WER son independientes y no se debe esperar que se correlacionen.
Normalización
Cuando se calcula la métrica de WER, la transcripción de la máquina se compara con una transcripción de verdad fundamental proporcionada por una persona. El texto de ambas transcripciones se normaliza antes de que se realice la comparación. Se quita la puntuación y se ignora el uso de mayúsculas cuando se compara la transcripción de la máquina con la transcripción de verdad fundamental que proporciona el ser humano.
Convenciones de verdad fundamental
Es importante reconocer que no hay un solo formato de transcripción acordado por las personas para un audio determinado. Hay muchos aspectos que se deben considerar. Por ejemplo, el audio puede tener otras vocalizaciones que no sean discurso, como “uh”, “eh”, “ejem”. Algunos modelos de Cloud STT, como "medical_conversation", incluyen estas vocalizaciones y otras no. Por lo tanto, es importante que las convenciones de verdad fundamental coincidan con las convenciones del modelo que se evalúa. Los siguientes lineamientos de alto nivel se usan a fin de preparar una transcripción de texto de verdad fundamental para un audio determinado.
- Además de las letras estándar, puedes usar los dígitos del 0 al 9.
- No uses símbolos como “@”, “#”, “$”, “.”. Usa palabras como "en", "hash", "dólar", "punto".
- Usa “%” pero solo cuando esté precedido por un número; de lo contrario, usa las palabras “por ciento”.
Usa “\$” solo cuando esté seguido por un número, como “La leche está \$3.99”.
Usa palabras para números inferiores a 10.
- Por ejemplo, “Tengo cuatro gatos y 12 sombreros”.
Usa números para medidas, monedas y factores grandes, como millones, miles de millones o billones. Por ejemplo, “7.5 millones” en lugar de “siete millones y medio”.
No uses abreviaturas en los siguientes casos:
Correcto Incorrecto Kings versus Lakers Kings vs. Lakers Vivo en 123 Main Street Vivo en 123 Main St.
Mide la exactitud de la voz
En los siguientes pasos, podrás comenzar a determinar la exactitud con el audio:
Recopila archivos de audio de prueba
Recopila una muestra representativa de archivos de audio para medir su calidad. Esta muestra debe ser aleatoria y estar lo más cerca posible del entorno de destino. Por ejemplo, si deseas transcribir conversaciones de un centro de atención telefónica para ayudar a garantizar la calidad, debes seleccionar aleatoriamente algunas llamadas reales grabadas en el mismo equipo del que proviene tu audio de producción. Si tu audio está grabado en tu teléfono celular o en tu micrófono de computadora, y no representa tu caso de uso, no uses el audio grabado.
Registra, al menos, 30 minutos de audio para obtener una métrica de exactitud estadísticamente significativa. Recomendamos usar entre 30 minutos y 3 horas de audio. En este lab, se proporciona el audio.
Obtén transcripciones de verdad fundamental
Obtén transcripciones exactas del audio. Por lo general, esto implica una transcripción humana única o doble del audio objetivo. Tu objetivo es tener una transcripción 100% exacta para medir los resultados automatizados.
Es importante cuando obtengas transcripciones de verdad fundamental que coincidan lo más posible con las convenciones de transcripción de tu sistema de ASR de destino. Por ejemplo, asegúrese de que la puntuación, los números y las mayúsculas sean coherentes.
Obtén una transcripción de máquina y corrige cualquier problema en el texto que observes.
Obtén una transcripción de máquina
Envía el audio a la API de Google Speech-to-Text y obtén la transcripción de hipótesis mediante la IU de Speech-to-Text.
Sincroniza la verdad fundamental con el audio
En la herramienta de la IU, haz clic en “Conectar verdad fundamental” para asociar un archivo de audio determinado con la verdad fundamental proporcionada. Después de terminar la conexión, podrás ver tu métrica de WER y la visualización de todas las diferencias.