Présentation
L'affinage Speech-to-Text vous permet de personnaliser un modèle de reconnaissance vocale existant en utilisant vos données audio et textuelles uniques pour améliorer la précision de votre service de reconnaissance vocale.
L'affinage des modèles de reconnaissance vocale peut être utilisé pour améliorer un modèle de base afin d'optimiser la transcription dans des conditions acoustiques difficiles (présence de sirènes, de bruits forts, d'un bruit de fond excessif tel que de la musique ou d'autres conversations). Il permet également de gérer un vocabulaire spécifique, y compris des noms de produits propres au client ou une terminologie et des accents particuliers.
Accessible à la fois dans la console Google Cloud et dans l'API, l'affinage des modèles de reconnaissance vocale permet d'entraîner, d'évaluer et de déployer un modèle de reconnaissance vocale dédié dans un environnement intégré sans code. Pour l'entraînement, vous ne pouvez fournir que des données audio représentatives de vos conditions audio, sans transcriptions de référence sous la forme d'un ensemble d'entraînement. Cependant, vous devez fournir des données audio et leurs transcriptions de référence dans votre ensemble d'évaluation.
Étapes suivantes
Pour bénéficier de l'affinage des modèles de reconnaissance vocale dans votre application, suivez les ressources ci-dessous pour déployer votre modèle :