Introducción a los modelos más recientes

Las etiquetas de modelo “latest” en la API de Speech-to-Text brindan acceso a dos etiquetas de modelo nuevas que se pueden usar cuando especificas el campo del modelo. Estos modelos están diseñados para brindarte acceso a la tecnología de voz y a la investigación sobre el aprendizaje automático de Google más recientes, y pueden proporcionar mayor precisión para el reconocimiento de voz sobre otros modelos disponibles. Sin embargo, algunas funciones que son compatibles con otros modelos disponibles aún no son compatibles con los modelos “más recientes”.

Los modelos más recientes se basan en la tecnología Conformer Speech Model de Google. Para obtener más información, consulta las Publicaciones de Google Research.

El uso de los modelos más recientes requiere una comprensión general del uso de la IU o la API de Speech-to-Text. Consulta las Guías de inicio rápido si es la primera vez que lo usas.

Identificadores de modelo

Los modelos más recientes están disponibles en dos versiones diferentes:

  • El modelo latest_short es para expresiones cortas que duran pocos segundos. Es útil para intentar capturar comandos u otro caso de uso de expresiones únicas de voz dirigida. Considera usar latest_short en lugar del modelo command_and_search.

  • El modelo latest_long es para cualquier tipo de contenido de formato largo, como el contenido multimedia o las conversaciones espontáneas. Considera usar latest_long en lugar de video, en especial si video no está disponible en tu idioma objetivo. También puedes usar latest_long en lugar del modelo default.

Tecnología del modelo

El objetivo de los modelos más recientes es ofrecer la tecnología de voz más reciente directamente a los usuarios de Google Cloud. Nuestros modelos más recientes se basan en la tecnología de Conformer Speech Model de Google, pero esto puede cambiar en el futuro. Para obtener más información, consulta la lista de Publicaciones de Google Research.

Precios

Los modelos latest_long y latest_short se facturan como “Standard” y están sujetos a los mismos costos y uso que los modelos command_and_search o default. Para obtener más información, consulta Precios.

Actualizaciones de modelos

Los modelos más recientes se basan en una tecnología de aprendizaje automático que avanza rápidamente. Por este motivo, es posible que hagamos actualizaciones o modelos con más frecuencia que en nuestros otros modelos. Estas actualizaciones pueden agregar funciones adicionales o realizar pequeños cambios en la precisión o la latencia.

Lenguajes

Los modelos más recientes están disponibles en más de 20 idiomas y en más de 50 variantes. Siempre estamos agregando idiomas, así que consulta Idiomas para obtener la lista más actualizada.

Compatibilidad y limitaciones de funciones

La compatibilidad de funciones varía según el idioma. Consulta Idiomas para obtener una lista completa de las funciones compatibles.

Por el momento, los modelos más recientes no son compatibles con las siguientes funciones:

  • Puntuación de confianza: La API mostrará un valor, pero no es realmente una puntuación de confianza.

Acuerdo de Nivel de Servicio de los modelos

Los modelos más recientes se consideran parte de la disponibilidad general de la API de Speech-to-Text. Por lo tanto, la funcionalidad que admiten está disponible en la API v1 y es apta para el mismo Acuerdo de Nivel de Servicio y otras protecciones de los productos y las funciones con disponibilidad general.