Descripción general
El ajuste fino de Speech-to-Text te permite adaptar un modelo de voz existente mediante tus datos únicos de audio y texto para aumentar la precisión de tu servicio de reconocimiento de voz.
El ajuste fino de modelos de voz se puede usar para mejorar un modelo de voz base a fin de mejorar el reconocimiento de transcripciones en condiciones acústicas desafiantes, como sirenas, ruidos fuertes, ruido de fondo excesivo, como música o conversaciones, y vocabulario único, incluidos los nombres de productos específicos de los clientes. o terminología única y acentos.
El ajuste de modelos de voz, accesible en nuestra consola de Google Cloud y en la API, permite entrenar, evaluar y, luego, implementar un modelo de voz dedicado en un entorno integrado sin código. Para el entrenamiento, puedes proporcionar datos de audio que sean representativos de tus condiciones de audio, sin transcripciones de referencia como un conjunto de entrenamiento. Sin embargo, debes proporcionar los datos de audio y sus transcripciones de referencia como parte del conjunto de evaluación.
¿Qué sigue?
Para aprovechar el ajuste fino del modelo de voz en tu aplicación, sigue los recursos a continuación a fin de implementar tu modelo: