Derniers modèles

Les tags de modèle "latest" (derniers) dans l'API Speech-to-Text donnent accès à deux nouveaux tags de modèle, que vous pouvez utiliser lorsque vous spécifiez le champ du modèle. Ces modèles sont conçus pour vous permettre d'accéder aux dernières technologies de reconnaissance vocale et de machine learning de Google. Ils offrent une précision de reconnaissance vocale plus élevée par rapport à d'autres modèles disponibles. Cependant, certaines fonctionnalités compatibles avec d'autres modèles disponibles ne le sont pas encore avec les modèles "les plus récents".

Les derniers modèles sont basés sur la technologie Conformer Speech Model de Google. Pour en savoir plus, consultez l'article Publications de recherche Google.

L'utilisation des derniers modèles nécessite une compréhension générale de l'utilisation de l'API ou de l'interface utilisateur de Speech-to-Text. Veuillez consulter nos guides de démarrage rapide si c'est votre première utilisation.

Identifiants de modèle

Les derniers modèles sont disponibles dans deux versions différentes :

Le modèle latest_short est destiné aux énoncés courts, de quelques secondes. Il est pertinent pour capturer des commandes vocales, ou d'autres cas d'utilisation supposant des énoncés brefs et orientés. Lorsque vous utilisez ce modèle, le service arrête de transcrire le contenu audio une fois le premier énoncé détecté et terminé.

La reconnaissance distincte par canal n'est pas compatible avec ce modèle. Bien que l'audio multicanal soit accepté, seul le premier canal sera traité et transcrit.
Le modèle latest_long est adapté à tous types de contenus longs, tels que les flux audio présents dans des médias, ou des conversations spontanées.

Technologie du modèle

L'objectif des modèles les plus récents est de mettre les dernières avancées en termes de technologie vocale directement à la disposition des utilisateurs de Google Cloud. Nos modèles les plus récents sont basés sur la technologie Conformer Speech Model de Google, même si c'est susceptible de changer ultérieurement. Pour en savoir plus, consultez la liste des publications Google Research.

Tarifs

Les modèles latest_long et latest_short sont facturés comme étant "standards". Pour en savoir plus, reportez-vous à la page Tarifs.

Mises à jour du modèle

Les derniers modèles reposent sur une technologie de machine learning en constante évolution. Pour cette raison, nous pouvons effectuer des mises à jour ou des actualisations de modèle plus souvent que pour nos autres modèles. Ces mises à jour peuvent ajouter des fonctionnalités supplémentaires ou modifier légèrement la précision ou la latence.

Langages

Les derniers modèles sont disponibles dans plus de 20 langues et plus de 50 variantes. Nous ajoutons toujours des langues. Pour obtenir la liste la plus récente, consultez la page Langues.

Compatibilité et limites des fonctionnalités

La prise en charge de la fonctionnalité varie selon la langue. Consultez la page Langues pour obtenir la liste complète des fonctionnalités compatibles.

Les modèles les plus récents ne sont actuellement pas compatibles avec les fonctionnalités suivantes :

Scores de confiance : l'API renvoie une valeur, mais ce n'est pas réellement un score de confiance.
Pondération : seul le modèle en-us latest_short est compatible avec la pondération.
Identification : aucun des modèles les plus récents n'accepte l'identification.