Sélectionner un modèle de transcription

Cette page explique comment utiliser un modèle de machine learning spécifique pour les requêtes de transcription audio dans Speech-to-Text.

Modèles de transcription

Speech-to-Text détecte les mots prononcés dans un extrait audio en comparant les entrées à l'un des nombreux modèles de machine learning. Chaque modèle a été entraîné via l'analyse de millions d'exemples (dans ce cas, de très nombreux enregistrements audio de personnes qui parlent).

Speech-to-Text possède des modèles spécialisés qui sont entraînés à partir de données audio provenant de sources spécifiques. Ces modèles fournissent de meilleurs résultats lorsqu'ils sont appliqués à des types de données audio similaires aux données sur lesquelles ils ont été entraînés.

Par exemple, Speech-to-Text possède un modèle de transcription entraîné à reconnaître des phrases enregistrées au téléphone. Lorsque Speech-to-Text utilise le modèle telephony pour transcrire des enregistrements audio téléphoniques, il produit des résultats de transcription plus précis que s'il avait transcrit ces enregistrements en utilisant les modèles latest_long ou medical_dictation.

Le tableau suivant présente les modèles de transcription disponibles pour une utilisation avec Speech-to-Text.

Nom du modèle Description
long Utilisez ce modèle pour tous types de contenus longs, tels que les flux audio présents dans des médias, ou des conversations spontanées. Privilégiez ce modèle au modèle "vidéo" ou "par défaut", en particulier s'ils ne sont pas disponibles dans votre langue cible.
short Utilisez ce modèle pour des énoncés courts, de l'ordre de quelques secondes. Il est pertinent pour capturer des commandes vocales, ou d'autres cas d'utilisation supposant des énoncés brefs et orientés. Privilégiez ce modèle au modèle de commande et de recherche.
telephony Utilisez ce modèle pour les données audio provenant d'appels téléphoniques, généralement enregistrées à un taux d'échantillonnage de 8 kHz. Idéal pour le service client, la visioconférence et les applications kiosque automatisées.
medical_dictation Ce modèle permet de transcrire des notes dictées par un professionnel de santé, par exemple un médecin dictant des notes sur les résultats d'une analyse de sang d'un patient.
medical_conversation Ce modèle est idéal pour les conversations entre un prestataire de santé (par exemple, un médecin ou une infirmière) et un patient. Utilisez le modèle "medical_conversation" lorsqu'un prestataire et un patient sont en train de parler. Les mots prononcés par chaque locuteur sont automatiquement détectés et étiquetés.
chirp Utilisez notre modèle de reconnaissance vocale universel (USM, Universal Large Speech) pour bénéficier de transcriptions de pointe sans flux dans des contenus linguistiques variés et des fonctionnalités multilingues.
chirp_telephony Modèle de reconnaissance vocale universel (USM) pour les États-Unis, adapté à l'audio provenant d'un appel téléphonique (généralement enregistré à un taux d'échantillonnage de 8 kHz).
chirp_2 Utilisez la nouvelle génération de notre modèle de reconnaissance vocale universel (USM, Universal Large Speech Model) fourni par Gemini pour effectuer des transcriptions et des traductions sans flux dans des contenus linguistiques variés et des fonctionnalités multilingues.

Sélectionner un modèle pour la transcription audio

Le modèle est spécifié par l'outil de reconnaissance utilisé pour la requête de reconnaissance. Appelez speech/projects.locations.recognizers/create pour créer un outil de reconnaissance et utilisez le champ model pour spécifier le modèle. Les modèles valides pour chaque langue sont disponibles dans le tableau Langues disponibles.