Cette page explique comment utiliser un modèle de machine learning spécifique pour les requêtes de transcription audio dans Speech-to-Text.
Modèles de transcription
Speech-to-Text détecte les mots prononcés dans un extrait audio en comparant les entrées à l'un des nombreux modèles de machine learning. Chaque modèle a été entraîné via l'analyse de millions d'exemples (dans ce cas, de très nombreux enregistrements audio de personnes qui parlent).
Speech-to-Text est doté de modèles spécialisés qui sont entraînés à partir de données audio provenant de sources spécifiques. Ces modèles offrent de meilleurs résultats lorsqu'ils sont appliqués à des types de données audio similaires à ceux sur lesquels ils ont été entraînés.
Par exemple, Speech-to-Text possède un modèle de transcription entraîné à reconnaître des phrases enregistrées au téléphone. Lorsque Speech-to-Text utilise le modèle telephony
pour transcrire des enregistrements audio téléphoniques, il produit des résultats de transcription plus précis que s'il avait transcrit ces enregistrements en utilisant les modèles latest_long
ou medical_dictation
.
Le tableau suivant présente les modèles de transcription disponibles pour une utilisation avec Speech-to-Text.
Nom du modèle | Description |
---|---|
long |
Utilisez ce modèle pour tous types de contenus longs, tels que les flux audio présents dans des médias, ou des conversations spontanées. |
short |
Utilisez ce modèle pour des énoncés courts, de l'ordre de quelques secondes. Il est pertinent pour capturer des commandes vocales, ou d'autres cas d'utilisation supposant des énoncés brefs et orientés. Lorsque vous utilisez ce modèle, le service arrête de transcrire le contenu audio une fois le premier énoncé détecté et terminé. Avec ce modèle, la reconnaissance distincte par canal n'est pas acceptée. Alors que le contenu audio multicanal est accepté par le service, seul le premier canal est traité et reconnu. |
telephony |
Idéal pour les données audio provenant d'appels téléphoniques (généralement enregistrées à un taux d'échantillonnage de 8 kHz). |
medical_dictation |
Ce modèle permet de transcrire des notes dictées par un professionnel de santé, par exemple un médecin dictant des notes sur les résultats d'une analyse de sang d'un patient. |
medical_conversation |
Ce modèle est idéal pour les conversations entre un prestataire de santé (par exemple, un médecin ou une infirmière) et un patient. Utilisez ce modèle lorsqu'un prestataire et un patient sont en train de parler. Les mots prononcés par chaque locuteur sont automatiquement détectés et étiquetés dans la transcription renvoyée. |
chirp |
Grand modèle unifié de reconnaissance vocale. Utilisez ce modèle pour tous les cas d'utilisation qui ne nécessitent pas de diffusion en streaming. |
Sélectionner un modèle pour la transcription audio
Le modèle est spécifié par l'outil de reconnaissance utilisé pour la requête de reconnaissance. Appelez speech/projects.locations.recognizers/create
pour créer un outil de reconnaissance et utilisez le champ model
pour spécifier le modèle. Les modèles valides pour chaque langue sont disponibles dans le tableau Langues disponibles.