Présentation des derniers modèles

Les tags de modèle "latest" (derniers) dans l'API Speech-to-Text donnent accès à deux nouveaux tags de modèle, que vous pouvez utiliser lorsque vous spécifiez le champ du modèle. Ces modèles sont conçus pour vous permettre d'accéder aux dernières technologies de reconnaissance vocale et de machine learning de Google. Ils offrent une précision de reconnaissance vocale plus élevée par rapport à d'autres modèles disponibles. Cependant, certaines fonctionnalités compatibles avec d'autres modèles disponibles ne le sont pas encore avec les "derniers" modèles.

Les derniers modèles sont basés sur la technologie Conformer Speech Model de Google. Pour en savoir plus, consultez l'article Publications de recherche Google.

L'utilisation des modèles latest nécessite une compréhension générale de l'utilisation de l'API ou de l'interface utilisateur Speech-to-Text. Veuillez consulter nos guides de démarrage rapide si c'est votre première utilisation.

Identifiants de modèle

Les derniers modèles sont disponibles dans deux versions différentes :

  • Le modèle latest_short est destiné aux énoncés courts, de quelques secondes. Il est pertinent pour capturer des commandes vocales, ou d'autres cas d'utilisation supposant des énoncés brefs et orientés. Envisagez d'utiliser latest_short au lieu du modèle command_and_search.

  • Le modèle latest_long est adapté à tous types de contenus longs, tels que les flux audio présents dans des médias, ou des conversations spontanées. Pensez à utiliser latest_long à la place de video, en particulier si video n'est pas disponible dans votre langue cible. Vous pouvez également utiliser latest_long à la place du modèle default.

Technologie du modèle

L'objectif des modèles les plus récents est de mettre les dernières avancées en termes de technologie vocale directement à la disposition des utilisateurs de Google Cloud. Nos modèles les plus récents sont basés sur la technologie Conformer Speech Model de Google, même si c'est susceptible de changer ultérieurement. Pour en savoir plus, consultez la liste des publications Google Research.

Tarifs

Les modèles latest_long et latest_short sont facturés comme étant "standards", et sont soumis à la même utilisation et aux mêmes coûts que les modèles command_and_search ou default. Pour en savoir plus, reportez-vous à la page Tarifs.

Mises à jour du modèle

Les derniers modèles reposent sur une technologie de machine learning en constante évolution. C'est la raison pour laquelle nous sommes susceptibles d'apporter des mises à jour ou des actualisations de modèles plus fréquemment que sur nos autres modèles. Ces mises à jour peuvent ajouter des fonctionnalités supplémentaires ou apporter de légères modifications en termes de précision ou de latence.

Langages

Les derniers modèles sont disponibles dans plus de 20 langues et plus de 50 variantes. Nous ajoutons toujours des langues. Pour obtenir la liste la plus récente, consultez la page Langues.

Compatibilité et limites des fonctionnalités

La prise en charge de la fonctionnalité varie selon la langue. Consultez la section Langues pour obtenir la liste complète des fonctionnalités acceptées.

Les modèles les plus récents ne sont actuellement pas compatibles avec la fonctionnalité suivante :

  • Scores de confiance : l'API renvoie une valeur, mais ce n'est pas réellement un score de confiance.

Contrat de niveau de service du modèle

Les derniers modèles sont considérés comme étant une partie en disponibilité générale de l'API Speech-to-Text. Ainsi, la fonctionnalité compatible est disponible dans l'API v1. Elle est aussi éligible pour le même contrat de niveau de service et les autres protections offertes pour les produits et fonctionnalités en disponibilité générale.