Pour améliorer la précision et les performances de la transcription et de la reconnaissance vocale, l'API Cloud Speech-to-Text V1 transforme les modèles de reconnaissance vocale classiques restants en modèles basés sur Conformer avancés sans interrompre les fonctionnalités de l'API. Les modèles classiques font référence à ceux exposés dans l'API V1 sous les options de modèle command_and_search
, default
, phone_call
et video
. Ils sont basés sur des modèles visuels et linguistiques distincts, et sont compatibles avec certains cas d'utilisation de l'API Speech-to-Text.
Depuis le lancement de l'architecture Conformer en 2020 chez Google Brain, nous avons testé notre solution et remplacé progressivement nos modèles d'API Speech-to-Text V1. Cette approche a permis d'améliorer la précision, la robustesse et les performances du domaine dans divers cas d'utilisation. Sur cette page, vous trouverez des instructions sur les avantages de la migration et l'activation de cette migration, en fonction de vos besoins.
Qu'est-ce qui change ?
Après la date limite de migration, nous commencerons à acheminer le trafic hors des modèles actuellement exposés. Ces identifiants de modèles resteront valides et continueront à diffuser du trafic, car la redirection aura lieu en interne.
Ce tableau indique le routage à appliquer lorsque la migration prend effet. La redirection se produit entre les identifiants de modèle déjà visibles. Bien que cela ne soit pas obligatoire, vous pouvez modifier le code et tester le comportement du modèle à votre propre rythme.
Code BCP-47 | Identifiant actuel du modèle | single_utterance | Le trafic d'identifiant de modèle est dirigé vers |
---|---|---|---|
en-US | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
telephony |
|
phone_call |
false |
telephony |
|
phone_call(use_enhanced=true) |
true |
telephony_short |
|
video |
false |
telephony |
|
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
latest_long |
|
phone_call(use_enhanced=true) |
true |
latest_short |
|
phone_call |
false |
latest_long |
Chronologie
Vous disposez de trois options de migration, décrites sur cette page. En janvier 2024, nous commençons à transférer progressivement le trafic des modèles classiques vers les projets basés sur Conformer, avec une communication individuelle avant la migration. D'ici juin 2024, nous prévoyons de n'inclure que le trafic dans les modèles Conformer. Toute personne demandant encore à utiliser les modèles classiques sera automatiquement redirigée vers les modèles basés sur Conformer correspondants.
Mécanisme de migration
Les clients peuvent activer ou désactiver cette fonctionnalité, puis la migrer ultérieurement en suivant les instructions ci-dessous :
À privilégier : activer et migrer plus tôt
Si vous souhaitez activer le modèle de manière proactive, modifiez l'identifiant de modèle que vous avez utilisé dans l'API Speech-to-Text V1 par l'identifiant mis à jour, comme indiqué dans le tableau précédent. La migration proactive de votre projet vous donne le temps de tester les modèles et de bénéficier d'une précision et d'une robustesse accrues plus tôt.
Désactiver et migrer plus tard
Si vous rencontrez des problèmes avec les modèles mis à jour et que vous souhaitez désactiver temporairement la migration, créez une demande d'assistance Google Cloud. Lorsque vous créez la demande d'assistance, utilisez le titre "Désactiver la migration Conformer Speech-to-Text", et indiquez vos ID de projet et le motif de la désactivation.