Evaluar modelos

Usa la función de comparativas de la consola de Cloud Speech-to-Text para medir la precisión de cualquiera de los modelos de transcripción que se usan en la API Speech-to-Text V2.

La consola de Cloud Speech-to-Text ofrece comparativas visuales de los modelos preentrenados y de los modelos de Speech-to-Text personalizados. Para inspeccionar la calidad del reconocimiento, puedes comparar las métricas de evaluación de la tasa de error de palabras (WER) de varios modelos de transcripción. De esta forma, podrás decidir qué modelo se adapta mejor a tu aplicación.

Antes de empezar

Asegúrate de que te has registrado para obtener una Google Cloud cuenta, has creado un proyecto, has entrenado un modelo de voz personalizado y lo has implementado mediante un endpoint.

Crear un conjunto de datos de referencia

Para crear un conjunto de datos de comparativas personalizado, recopila muestras de audio que reflejen con precisión el tipo de tráfico que encontrará el modelo de transcripción en un entorno de producción. La duración total de estos archivos de audio debería ser de al menos 30 minutos y no superar las 10 horas. Para crear el conjunto de datos, debes hacer lo siguiente:

  1. Crea un directorio en un segmento de Cloud Storage de tu elección para almacenar los archivos de audio y texto del conjunto de datos.
  2. Crea transcripciones razonablemente precisas de cada archivo de audio del conjunto de datos. Por cada archivo de audio (como example_audio_1.wav), se debe crear un archivo de texto de referencia correspondiente (example_audio_1.txt). Este servicio usa estos emparejamientos de audio y texto en un segmento de Cloud Storage para crear el conjunto de datos.

Comparar el modelo

Para evaluar la precisión de tu modelo con el modelo de Speech-to-Text personalizado y tu conjunto de datos de referencia, sigue la guía para medir y mejorar la precisión.