Vous pouvez améliorer la précision des résultats de transcription obtenus avec Speech-to-Text grâce à l'adaptation vocale. La fonctionnalité d'adaptation vocale vous permet de spécifier des mots et/ou des expressions que STT doit reconnaître plus souvent dans vos données audio plutôt que d'autres alternatives qui pourraient être suggérées. L'adaptation vocale est particulièrement utile pour améliorer la précision de la transcription dans les cas suivants :
- Vos données audio contiennent des mots ou des expressions qui sont susceptibles d'apparaître très fréquemment.
- Vos données audio contiennent probablement des mots rares (tels que des noms propres) ou des mots qui n'existent pas dans le langage courant.
- Vos données audio contiennent du bruit ou manquent de clarté.
Consultez la page Concepts de l'adaptation vocale pour en savoir plus sur les bonnes pratiques concernant l'adaptation vocale et son amélioration.
L'exemple de code suivant montre comment améliorer la précision de la transcription en définissant des contextes vocaux dans une requête envoyée à l'API Speech-to-Text. Consultez la page sur les jetons de classe pour connaître la liste des classes disponibles pour votre langue.
REST
Reportez-vous au point de terminaison speech:recognize
de l'API pour obtenir des informations complètes.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- language-code : code BCP-47 de la langue parlée dans votre extrait audio.
- phrases-to-boost : expression(s) que vous souhaitez améliorer avec Speech-to-Text, sous la forme d'un tableau de chaînes.
- storage-bucket : bucket Cloud Storage.
- input-audio : données audio que vous souhaitez transcrire.
Méthode HTTP et URL :
POST https://speech.googleapis.com/v1p1beta1/speech:recognize
Corps JSON de la requête :
{ "config":{ "languageCode":"language-code", "speechContexts":[{ "phrases":[phrases-to-boost], "boost": 2 }] }, "audio":{ "uri":"gs:storage-bucket/input-file" } }
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir une réponse JSON de ce type :
{ "results": [ { "alternatives": [ { "transcript": "When deciding whether to bring an umbrella, I consider the weather", "confidence": 0.9463943 } ], "languageCode": "en-us" } ] }
Java
Node.js
Python
Go