Migra de los modelos clásicos a Conformer

Para mejorar la exactitud y el rendimiento de la transcripción y el reconocimiento de voz, la API de Cloud Speech-to-Text V1 actualiza los modelos de voz clásicos restantes a modelos de vanguardia basados en Conformer de una manera que no no romperán la funcionalidad de la API. Los modelos clásicos se refieren a los expuestos en la API V1 en las marcas del modelo command_and_search, default, phone_call y video. Se basan en modelos acústicos y de idioma discretos y admiten casos prácticos seleccionados de la API de Speech-to-Text.

Desde el inicio de la arquitectura de Conformer en 2020 en Google Brain, probamos nuestra solución y reemplazamos gradualmente nuestros modelos de la API de Speech-to-Text V1. Hacerlo aumentó la precisión, la solidez y el rendimiento en el dominio de una variedad de casos de uso. En esta página, encontrarás instrucciones sobre cómo puedes beneficiarte de la migración y cómo puedes migrar antes o después, según tus necesidades.

¿Qué aspectos cambiarán?

Después de la fecha límite de migración, comenzaremos a enrutar el tráfico fuera de los modelos expuestos en la actualidad. Estos identificadores de modelo seguirán siendo válidos y continuarán entregando tráfico, ya que el redireccionamiento se produce de forma interna.

En esta tabla, se muestra el enrutamiento que debe realizarse cuando la migración entra en vigor. El redireccionamiento se realizará entre los identificadores de modelo que ya están visibles. Si bien no es obligatorio, puedes realizar cambios en el código y probar el comportamiento del modelo a tu propio ritmo.

Código BCP-47 Identificador actual del modelo single_utterance El tráfico del identificador del modelo se dirige a
en-US command_and_search false latest_long
command_and_search true latest_short
default false telephony
phone_call false telephony
phone_call(use_enhanced=true) true telephony_short
video false telephony
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR command_and_search false latest_long
command_and_search true latest_short
default false latest_long
phone_call(use_enhanced=true) true latest_short
phone_call false latest_long

Cronograma

Tienes tres opciones de migración que se describen en esta página. En enero de 2024, comenzamos a cambiar el tráfico de forma gradual de los modelos clásicos a los basados en Conformer por proyecto, con comunicación individual antes de la migración. Para junio de 2024, esperamos cambiar todo el tráfico solo a los modelos de Conformer. Cualquier persona que solicite los modelos clásicos se redireccionará automáticamente a los modelos basados en Conformer.

Mecanismo de migración

Los clientes pueden aceptar antes o inhabilitar y migrar más tarde con estas instrucciones:

Recomendado: Habilita y migra antes

Si deseas habilitar de forma proactiva, cambia el identificador del modelo que usaste en la API de Speech-to-Text V1 con el actualizado, como se indica en la tabla anterior. La migración proactiva de tu proyecto te da tiempo para probar los modelos y aprovechar la solidez y la precisión mejoradas antes.

Inhabilita y migra más tarde

Si encuentras algún problema con los modelos actualizados y deseas inhabilitar la migración de forma temporal, crea un caso de asistencia de Google Cloud. Cuando crees el caso de asistencia, usa el título “Inhabilitar la migración de conformidad de Speech-to-Text” y proporciona los ID de tu proyecto y el motivo para inhabilitarlo.