Introducción a los modelos más recientes

Las etiquetas de modelo "latest" de la API Speech-to-Text dan acceso a dos nuevas etiquetas de modelo que se pueden usar al especificar el campo model. Estos modelos se han diseñado para que tengas acceso a la tecnología de voz y a la investigación de aprendizaje automático más recientes de Google, y pueden ofrecer una mayor precisión en el reconocimiento de voz que otros modelos disponibles. Sin embargo, algunas funciones que admiten otros modelos disponibles aún no se admiten en los modelos más recientes.

Los modelos más recientes se basan en la tecnología del modelo de voz Conformer de Google. Para obtener más información, consulta las publicaciones de Google Research.

Para usar los modelos más recientes, debes tener conocimientos generales sobre el uso de la API o la interfaz de Speech-to-Text. Consulta nuestras guías de inicio rápido si es la primera vez que lo usas.

Identificadores de modelo

Los modelos más recientes están disponibles en dos versiones diferentes:

  • El modelo latest_short es para frases cortas de unos segundos de duración. Es útil para intentar captar comandos u otros casos prácticos de habla dirigida de un solo intento. Considera usar latest_short en lugar del modelo command_and_search.

  • El modelo latest_long es para cualquier tipo de contenido extenso, como contenido multimedia o conversaciones y discursos espontáneos. Te recomendamos que uses latest_long en lugar de video, sobre todo si video no está disponible en el idioma de destino. También puedes usar latest_long en lugar del modelo default.

Model Technology

El objetivo de los modelos más recientes es ofrecer lo último en tecnología de voz directamente a los usuarios de Google Cloud. Nuestros modelos más recientes se basan en la tecnología del modelo de voz Conformer de Google, pero esto puede cambiar en el futuro. Para obtener más información, consulta la lista de publicaciones de Google Research.

Precios

Los modelos latest_long y latest_short se facturan como "Estándar" y están sujetos al mismo uso y costes que los modelos command_and_search o default. Para obtener más información, consulta los precios.

Actualizaciones del modelo

Los modelos más recientes se basan en una tecnología de aprendizaje automático que avanza rápidamente. Por este motivo, es posible que actualicemos o renovemos los modelos con más frecuencia que otros. Estas actualizaciones pueden añadir funciones o hacer pequeños cambios en la precisión o la latencia.

Idiomas

Los modelos más recientes están disponibles en más de 20 idiomas y más de 50 variantes. Añadimos idiomas constantemente, así que consulta la lista más actualizada en la página Idiomas.

Funciones admitidas y limitaciones

La disponibilidad de esta función varía según el idioma. Consulta la lista completa de funciones admitidas en Idiomas.

Los modelos más recientes no admiten la siguiente función:

  • Puntuaciones de confianza: la API devolverá un valor, pero no es una puntuación de confianza real.

Modelo de acuerdo de nivel de servicio

Los modelos Latest se consideran una parte disponible para todos los usuarios de la API Speech-to-Text. Por lo tanto, las funciones que admiten están disponibles en la API v1 y cumplen los requisitos del mismo Acuerdo de Nivel de Servicio y otras protecciones que se ofrecen a los productos y funciones disponibles de forma general.