Modelos de conformidad (largo y corto)

Las etiquetas de modelo “latest” en la API de Speech-to-Text brindan acceso a dos etiquetas de modelo nuevas que se pueden usar cuando especificas el campo del modelo. Estos modelos están diseñados para brindarte acceso a la tecnología de voz y a la investigación sobre el aprendizaje automático de Google más recientes, y pueden proporcionar mayor precisión para el reconocimiento de voz sobre otros modelos disponibles. Sin embargo, algunas funciones que son compatibles con otros modelos disponibles aún no son compatibles con los modelos “más recientes”.

Los modelos más recientes se basan en la tecnología Conformer Speech Model de Google. Para obtener más información, consulta las Publicaciones de Google Research.

El uso de los modelos más recientes requiere una comprensión general del uso de la IU o la API de Speech-to-Text. Consulta las Guías de inicio rápido si es la primera vez que lo usas.

Identificadores de modelo

Los modelos más recientes están disponibles en dos versiones diferentes:

El modelo latest_short es para expresiones cortas que duran pocos segundos. Es útil para intentar capturar comandos u otro caso de uso de expresiones únicas de voz dirigida. Cuando usas este modelo, el servicio dejará de transcribir audio después de que se detecte y complete la primera expresión.

Este modelo no admite el reconocimiento independiente por canal. Si bien se acepta el audio de varios canales, solo se procesará y transcribirá el primer canal.
El modelo latest_long es para cualquier tipo de contenido de formato largo, como el contenido multimedia o las conversaciones espontáneas.

Tecnología del modelo

El objetivo de los modelos más recientes es ofrecer la tecnología de voz más reciente directamente a los usuarios de Google Cloud. Nuestros modelos más recientes se basan en la tecnología de Conformer Speech Model de Google, pero esto puede cambiar en el futuro. Para obtener más información, consulta la lista de Publicaciones de Google Research.

Precios

Los modelos latest_long y latest_short se facturan como “Estándar”. Para obtener más información, consulta Precios.

Actualizaciones de modelos

Los modelos más recientes se basan en una tecnología de aprendizaje automático que avanza rápidamente. Por este motivo, es posible que realicemos actualizaciones o modelos con más frecuencia que en nuestros otros modelos. Estas actualizaciones pueden agregar funciones adicionales o realizar pequeños cambios en la precisión o la latencia.

Lenguajes

Los modelos más recientes están disponibles en más de 20 idiomas y en más de 50 variantes. Siempre estamos agregando idiomas, así que consulta Idiomas para obtener la lista más actualizada.

Compatibilidad y limitaciones de funciones

La compatibilidad de funciones varía según el idioma. Consulta Idiomas para obtener una lista completa de las funciones compatibles.

Por el momento, los modelos más recientes no son compatibles con las siguientes funciones:

Puntuación de confianza: La API mostrará un valor, pero no es realmente una puntuación de confianza.
Identificación: Ninguno de los modelos más recientes admite la identificación.