Sélectionner un modèle de transcription

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Cette page explique comment utiliser un modèle de machine learning spécifique pour les requêtes de transcription audio dans Speech-to-Text.

Modèles de transcription

Speech-to-Text détecte les mots prononcés dans un extrait audio en comparant les entrées à l'un des nombreux modèles de machine learning. Chaque modèle a été entraîné via l'analyse de millions d'exemples (dans ce cas, de très nombreux enregistrements audio de personnes qui parlent).

Speech-to-Text est doté de modèles spécialisés qui sont entraînés à partir de données audio provenant de sources spécifiques. Ces modèles offrent de meilleurs résultats lorsqu'ils sont appliqués à des types de données audio similaires à ceux sur lesquels ils ont été entraînés.

Par exemple, Speech-to-Text possède un modèle de transcription entraîné à reconnaître des phrases enregistrées au téléphone. Lorsque Speech-to-Text utilise le modèle telephony pour transcrire des enregistrements audio téléphoniques, il produit des résultats de transcription plus précis que s'il avait transcrit ces enregistrements en utilisant les modèles latest_long ou medical_dictation.

Le tableau suivant présente les modèles de transcription disponibles pour une utilisation avec Speech-to-Text.

Nom du modèle Description
latest_long Utilisez ce modèle pour tous types de contenus longs, tels que les flux audio présents dans des médias, ou des conversations spontanées.
latest_short Utilisez ce modèle pour des énoncés courts, de l'ordre de quelques secondes. Il est pertinent pour capturer des commandes vocales, ou d'autres cas d'utilisation supposant des énoncés brefs et orientés. Lorsque vous utilisez ce modèle, le service arrête de transcrire le contenu audio une fois le premier énoncé détecté et terminé. Avec ce modèle, la reconnaissance distincte par canal n'est pas acceptée. Alors que le contenu audio multicanal est accepté par le service, seul le premier canal est traité et reconnu.
telephony Idéal pour les données audio provenant d'appels téléphoniques (généralement enregistrées à un taux d'échantillonnage de 8 kHz).
medical_dictation Ce modèle permet de transcrire des notes dictées par un professionnel de santé, par exemple un médecin dictant des notes sur les résultats d'une analyse de sang d'un patient.
medical_conversation Ce modèle est idéal pour les conversations entre un prestataire de santé (par exemple, un médecin ou une infirmière) et un patient. Utilisez ce modèle lorsqu'un prestataire et un patient sont en train de parler. Les mots prononcés par chaque locuteur sont automatiquement détectés et étiquetés dans la transcription renvoyée.

Sélectionner un modèle pour la transcription audio

Le modèle est spécifié par l'outil de reconnaissance utilisé pour la requête de reconnaissance. Appelez speech/projects.locations.recognizers/create pour créer un outil de reconnaissance et utilisez le champ model pour spécifier le modèle. Les modèles valides sont les suivants : latest_long, latest_short, telephony, medical_dictation ou medical_conversation.