Modèles Conformer (long et court)

Les tags de modèle "latest" dans l'API Speech-to-Text permettent d'accéder à deux nouveaux tags de modèle, qui peuvent être utilisés lorsque vous spécifiez le champ de modèle. Ces modèles sont conçus pour vous permettre d'accéder aux dernières technologies de reconnaissance vocale et de machine learning de Google. Ils offrent une précision de reconnaissance vocale plus élevée par rapport à d'autres modèles disponibles. Cependant, certaines fonctionnalités compatibles avec d'autres modèles disponibles ne le sont pas encore avec les "derniers" modèles.

Les derniers modèles sont basés sur la technologie Conformer Speech Model de Google. Pour en savoir plus, consultez l'article Publications de recherche Google.

L'utilisation des modèles latest nécessite une compréhension générale de l'utilisation de l'API ou de l'interface utilisateur Speech-to-Text. Veuillez consulter nos guides de démarrage rapide si c'est votre première utilisation.

Identifiants de modèle

Les derniers modèles sont disponibles dans deux versions différentes :

  • Le modèle latest_short est destiné aux énoncés courts, de quelques secondes. Il est pertinent pour capturer des commandes vocales, ou d'autres cas d'utilisation supposant des énoncés brefs et orientés. Lorsque vous utilisez ce modèle, le service arrête de transcrire du contenu audio une fois qu'un premier énoncé a été détecté et achevé.

    La reconnaissance distincte par canal n'est pas compatible avec ce modèle. Bien que le contenu audio multicanal soit accepté, seul le premier canal sera traité et transcrit.

  • Le modèle latest_long est adapté à tous types de contenus longs, tels que les flux audio présents dans des médias, ou des conversations spontanées.

Technologie du modèle

L'objectif des modèles les plus récents est de mettre les dernières avancées en termes de technologie vocale directement à la disposition des utilisateurs de Google Cloud. Nos modèles les plus récents sont basés sur la technologie Conformer Speech Model de Google, même si c'est susceptible de changer ultérieurement. Pour en savoir plus, consultez la liste des publications Google Research.

Tarifs

Les modèles latest_long et latest_short sont facturés comme étant "standards". Pour en savoir plus, reportez-vous à la page Tarifs.

Mises à jour du modèle

Les modèles latest sont basés sur des technologies de machine learning qui évoluent rapidement. C'est la raison pour laquelle nous sommes susceptibles d'apporter des mises à jour ou des actualisations de modèles plus fréquemment que sur nos autres modèles. Ces mises à jour peuvent ajouter des fonctionnalités supplémentaires ou apporter de légères modifications en termes de précision ou de latence.

Langages

Les derniers modèles sont disponibles dans plus de 20 langues et plus de 50 variantes. Reportez-vous à la section Langues pour obtenir la liste la plus récente, car nous ajoutons en permanence de nouvelles langues.

Compatibilité des fonctionnalités et limites

La prise en charge de la fonctionnalité varie selon la langue. Consultez la section Langues pour obtenir la liste complète des fonctionnalités acceptées.

Les modèles les plus récents ne sont actuellement pas compatibles avec les fonctionnalités suivantes :

  • Scores de confiance : l'API renvoie une valeur, mais ce n'est pas réellement un score de confiance.

  • Identification : aucun des modèles les plus récents n'accepte l'identification.