Para mejorar la precisión y el rendimiento de la transcripción y el reconocimiento de voz, la API Cloud Speech-to-Text V1 va a actualizar los modelos de voz clásicos restantes a modelos basados en Conformer de última generación de forma que no se interrumpa la funcionalidad de la API. Los modelos clásicos son los que se exponen en la API V1 con las marcas de modelo command_and_search
, default
, phone_call
y video
. Se basan en modelos acústicos y de lenguaje discretos, y admiten determinados casos prácticos de la API Speech-to-Text.
Desde que se creó la arquitectura Conformer en el 2020 en Google Brain, hemos probado nuestra solución y hemos sustituido gradualmente nuestros modelos de la API Speech-to-Text V1. De esta forma, hemos aumentado la precisión, la solidez y el rendimiento en el dominio en una amplia gama de casos prácticos. En esta página, encontrarás instrucciones sobre cómo puedes beneficiarte de la migración y cómo puedes habilitarla antes o después, en función de tus necesidades.
¿Qué va a cambiar?
Una vez que haya pasado la fecha límite de migración, empezaremos a desviar el tráfico de los modelos expuestos actualmente. Estos identificadores de modelo seguirán siendo válidos y seguirán publicando tráfico, ya que la redirección se produce de forma interna.
En esta tabla se muestra el enrutamiento que se llevará a cabo cuando se aplique la migración. El redireccionamiento se producirá entre los identificadores de modelo que ya estén visibles. Aunque no es obligatorio, puedes modificar el código y probar el comportamiento del modelo cuando quieras.
Código BCP-47 | Identificador del modelo actual | single_utterance | Tráfico dirigido al identificador de modelo |
---|---|---|---|
en-US | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
telephony |
|
phone_call |
false |
telephony |
|
phone_call(use_enhanced=true) |
true |
telephony_short |
|
video |
false |
telephony |
|
de-DE, en-AU, en-GB, en-IN, es-ES, es-US, fr-CA, fr-FR, it-IT, ja-JP, nl-NL, pt-BR | command_and_search |
false |
latest_long |
command_and_search |
true |
latest_short |
|
default |
false |
latest_long |
|
phone_call(use_enhanced=true) |
true |
latest_short |
|
phone_call |
false |
latest_long |
Cronología
En esta página se describen las tres opciones de migración. En enero del 2024, empezaremos a transferir gradualmente el tráfico de los modelos clásicos a los basados en Conformer proyecto por proyecto. Antes de la migración, nos pondremos en contacto con cada cliente. Para junio del 2024, esperamos que todo el tráfico se dirija únicamente a los modelos Conformer. Cualquier persona que siga solicitando los modelos clásicos se redirigirá automáticamente a los modelos basados en Conformer correspondientes.
Mecanismo de migración
Los clientes pueden habilitar la función antes o inhabilitarla y migrar más adelante siguiendo estas instrucciones:
Opción preferida: habilitar la función y migrar antes
Si quieres habilitar esta opción de forma proactiva, cambia el identificador del modelo que has estado usando en la API Speech-to-Text V1 por el actualizado, tal como se indica en la tabla anterior. Si migras tu proyecto de forma proactiva, tendrás tiempo para probar los modelos y aprovechar antes la mayor precisión y solidez.
Inhabilitar la función y migrar más adelante
Si detectas algún problema con los modelos actualizados y quieres inhabilitar la migración temporalmente, crea un caso de asistencia Google Cloud . Cuando crees el caso de asistencia, usa el título "Opt out from Speech-to-Text conformer migration" (Inhabilitar la migración de conformer de Speech-to-Text) e indica tus IDs de proyecto y el motivo por el que quieres inhabilitar la migración.