Las etiquetas de modelo "latest" de la API Speech-to-Text dan acceso a dos nuevas etiquetas de modelo que se pueden usar al especificar el campo model. Estos modelos se han diseñado para que tengas acceso a la tecnología de voz y a la investigación de aprendizaje automático más recientes de Google, y pueden ofrecer una mayor precisión en el reconocimiento de voz que otros modelos disponibles. Sin embargo, algunas funciones que admiten otros modelos disponibles aún no se admiten en los modelos más recientes.
Los modelos más recientes se basan en la tecnología del modelo de voz Conformer de Google. Para obtener más información, consulta las publicaciones de Google Research.
Para usar los modelos más recientes, debes tener conocimientos generales sobre el uso de la API o la interfaz de Speech-to-Text. Consulta nuestras guías de inicio rápido si es la primera vez que lo usas.
Identificadores de modelo
Los modelos más recientes están disponibles en dos versiones diferentes:
El modelo
latest_short
es para frases cortas de unos segundos de duración. Es útil para intentar captar comandos u otros casos prácticos de habla dirigida de un solo intento. Considera usarlatest_short
en lugar del modelocommand_and_search
.El modelo
latest_long
es para cualquier tipo de contenido extenso, como contenido multimedia o conversaciones y discursos espontáneos. Te recomendamos que useslatest_long
en lugar devideo
, sobre todo sivideo
no está disponible en el idioma de destino. También puedes usarlatest_long
en lugar del modelodefault
.
Model Technology
El objetivo de los modelos más recientes es ofrecer lo último en tecnología de voz directamente a los usuarios de Google Cloud. Nuestros modelos más recientes se basan en la tecnología del modelo de voz Conformer de Google, pero esto puede cambiar en el futuro. Para obtener más información, consulta la lista de publicaciones de Google Research.
Precios
Los modelos latest_long
y latest_short
se facturan como "Estándar" y están sujetos al mismo uso y costes que los modelos command_and_search
o default
. Para obtener más información, consulta los precios.
Actualizaciones del modelo
Los modelos más recientes se basan en una tecnología de aprendizaje automático que avanza rápidamente. Por este motivo, es posible que actualicemos o renovemos los modelos con más frecuencia que otros. Estas actualizaciones pueden añadir funciones o hacer pequeños cambios en la precisión o la latencia.
Idiomas
Los modelos más recientes están disponibles en más de 20 idiomas y más de 50 variantes. Añadimos idiomas constantemente, así que consulta la lista más actualizada en la página Idiomas.
Funciones admitidas y limitaciones
La disponibilidad de esta función varía según el idioma. Consulta la lista completa de funciones admitidas en Idiomas.
Los modelos más recientes no admiten la siguiente función:
- Puntuaciones de confianza: la API devolverá un valor, pero no es una puntuación de confianza real.
Modelo de acuerdo de nivel de servicio
Los modelos Latest se consideran una parte disponible para todos los usuarios de la API Speech-to-Text. Por lo tanto, las funciones que admiten están disponibles en la API v1 y cumplen los requisitos del mismo Acuerdo de Nivel de Servicio y otras protecciones que se ofrecen a los productos y funciones disponibles de forma general.