Les tags de modèle "latest" (derniers) dans l'API Speech-to-Text donnent accès à deux nouveaux tags de modèle, que vous pouvez utiliser lorsque vous spécifiez le champ du modèle. Ces modèles sont conçus pour vous permettre d'accéder aux dernières technologies de reconnaissance vocale et de machine learning de Google. Ils offrent une précision de reconnaissance vocale plus élevée par rapport à d'autres modèles disponibles. Cependant, certaines fonctionnalités compatibles avec d'autres modèles disponibles ne le sont pas encore avec les "derniers" modèles.
Les derniers modèles sont basés sur la technologie Conformer Speech Model de Google. Pour en savoir plus, consultez l'article Publications de recherche Google.
L'utilisation des modèles latest nécessite une compréhension générale de l'utilisation de l'API ou de l'interface utilisateur Speech-to-Text. Veuillez consulter nos guides de démarrage rapide si c'est votre première utilisation.
Identifiants de modèle
Les derniers modèles sont disponibles dans deux versions différentes :
Le modèle
latest_short
est destiné aux énoncés courts, de quelques secondes. Il est pertinent pour capturer des commandes vocales, ou d'autres cas d'utilisation supposant des énoncés brefs et orientés. Envisagez d'utiliserlatest_short
au lieu du modèlecommand_and_search
.Le modèle
latest_long
est adapté à tous types de contenus longs, tels que les flux audio présents dans des médias, ou des conversations spontanées. Pensez à utiliserlatest_long
à la place devideo
, en particulier sivideo
n'est pas disponible dans votre langue cible. Vous pouvez également utiliserlatest_long
à la place du modèledefault
.
Technologie du modèle
L'objectif des modèles les plus récents est de mettre les dernières avancées en termes de technologie vocale directement à la disposition des utilisateurs de Google Cloud. Nos modèles les plus récents sont basés sur la technologie Conformer Speech Model de Google, même si c'est susceptible de changer ultérieurement. Pour en savoir plus, consultez la liste des publications Google Research.
Tarifs
Les modèles latest_long
et latest_short
sont facturés comme étant "standards", et sont soumis à la même utilisation et aux mêmes coûts que les modèles command_and_search
ou default
. Pour en savoir plus, reportez-vous à la page Tarifs.
Mises à jour du modèle
Les derniers modèles reposent sur une technologie de machine learning en constante évolution. C'est la raison pour laquelle nous sommes susceptibles d'apporter des mises à jour ou des actualisations de modèles plus fréquemment que sur nos autres modèles. Ces mises à jour peuvent ajouter des fonctionnalités supplémentaires ou apporter de légères modifications en termes de précision ou de latence.
Langages
Les derniers modèles sont disponibles dans plus de 20 langues et plus de 50 variantes. Nous ajoutons toujours des langues. Pour obtenir la liste la plus récente, consultez la page Langues.
Compatibilité et limites des fonctionnalités
La prise en charge de la fonctionnalité varie selon la langue. Consultez la section Langues pour obtenir la liste complète des fonctionnalités acceptées.
Les modèles les plus récents ne sont actuellement pas compatibles avec la fonctionnalité suivante :
- Scores de confiance : l'API renvoie une valeur, mais ce n'est pas réellement un score de confiance.
Contrat de niveau de service du modèle
Les derniers modèles sont considérés comme étant une partie en disponibilité générale de l'API Speech-to-Text. Ainsi, la fonctionnalité compatible est disponible dans l'API v1. Elle est aussi éligible pour le même contrat de niveau de service et les autres protections offertes pour les produits et fonctionnalités en disponibilité générale.