Passer des modèles classiques aux modèles Conformer

Pour améliorer la précision et les performances de la transcription et de la reconnaissance vocale, l'API Cloud Speech-to-Text V1 transforme les modèles de reconnaissance vocale classiques restants en modèles basés sur Conformer avancés sans interrompre les fonctionnalités de l'API. Les modèles classiques font référence à ceux exposés dans l'API V1 sous les options de modèle command_and_search, default, phone_call et video. Ils sont basés sur des modèles visuels et linguistiques distincts, et sont compatibles avec certains cas d'utilisation de l'API Speech-to-Text.

Depuis le lancement de l'architecture Conformer en 2020 chez Google Brain, nous avons testé notre solution et remplacé progressivement nos modèles d'API Speech-to-Text V1. Cette approche a permis d'améliorer la précision, la robustesse et les performances du domaine dans divers cas d'utilisation. Sur cette page, vous trouverez des instructions sur les avantages de la migration et l'activation de cette migration, en fonction de vos besoins.

Qu'est-ce qui change ?

Après la date limite de migration, nous commencerons à acheminer le trafic hors des modèles actuellement exposés. Ces identifiants de modèles resteront valides et continueront à diffuser du trafic, car la redirection aura lieu en interne.

Ce tableau indique le routage à appliquer lorsque la migration prend effet. La redirection se produit entre les identifiants de modèle déjà visibles. Bien que cela ne soit pas obligatoire, vous pouvez modifier le code et tester le comportement du modèle à votre propre rythme.

Code BCP-47 Identifiant actuel du modèle single_utterance Le trafic d'identifiant de modèle est dirigé vers
en-US command_and_search false latest_long
command_and_search true latest_short
default false telephony
phone_call false telephony
phone_call(use_enhanced=true) true telephony_short
video false telephony
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR command_and_search false latest_long
command_and_search true latest_short
default false latest_long
phone_call(use_enhanced=true) true latest_short
phone_call false latest_long

Chronologie

Vous disposez de trois options de migration, décrites sur cette page. En janvier 2024, nous commençons à transférer progressivement le trafic des modèles classiques vers les projets basés sur Conformer, avec une communication individuelle avant la migration. D'ici juin 2024, nous prévoyons de n'inclure que le trafic dans les modèles Conformer. Toute personne demandant encore à utiliser les modèles classiques sera automatiquement redirigée vers les modèles basés sur Conformer correspondants.

Mécanisme de migration

Les clients peuvent activer ou désactiver cette fonctionnalité, puis la migrer ultérieurement en suivant les instructions ci-dessous :

À privilégier : activer et migrer plus tôt

Si vous souhaitez activer le modèle de manière proactive, modifiez l'identifiant de modèle que vous avez utilisé dans l'API Speech-to-Text V1 par l'identifiant mis à jour, comme indiqué dans le tableau précédent. La migration proactive de votre projet vous donne le temps de tester les modèles et de bénéficier d'une précision et d'une robustesse accrues plus tôt.

Migrer automatiquement

Pour être migré automatiquement, aucune action n'est requise de votre part. Les identifiants de modèles d'API Speech-to-Text V1 existants sont valides et nous transférons le trafic en interne. Vous recevrez une communication de notre équipe lors de la migration de votre projet.

Pour vérifier l'état de la migration de votre projet, procédez comme suit :

  1. Accédez à la console Google Cloud Speech.

  2. Accédez à la section "Fonctionnalités bêta" de la barre de navigation de gauche.

  3. Vérifiez l'état de vos modèles dans le tableau.

Désactiver et migrer plus tard

Si vous rencontrez des problèmes avec les modèles mis à jour et que vous souhaitez désactiver temporairement la migration, créez une demande d'assistance Google Cloud. Lorsque vous créez la demande d'assistance, utilisez le titre "Désactiver la migration Conformer Speech-to-Text", et indiquez vos ID de projet et le motif de la désactivation.