Seleccionar un modelo de transcripción

En esta página se describe cómo usar un modelo de aprendizaje automático específico para enviar solicitudes de transcripción de audio a Speech-to-Text.

Modelos de transcripción

Speech-to-Text detecta palabras en un clip de audio comparando la entrada con uno de los muchos modelos de aprendizaje automático. Cada modelo se ha entrenado analizando millones de ejemplos. En este caso, se trata de muchísimas grabaciones de audio de personas hablando.

Speech-to-Text tiene modelos especializados que se entrenan a partir de audio de fuentes específicas. Estos modelos ofrecen mejores resultados cuando se aplican a tipos de datos de audio similares a los datos con los que se han entrenado.

En la siguiente tabla se muestran los modelos de transcripción que se pueden usar con la API Speech-to-Text V2.

Nombre del modelo Descripción
chirp_3 Usa la última generación de modelos generativos multilingües específicos de reconocimiento automático del habla (RAA) de Google, diseñados para satisfacer las necesidades de tus usuarios en función de sus comentarios y su experiencia. Chirp 3 ofrece una mayor precisión y velocidad que los modelos anteriores de Chirp, así como la diarización y la detección automática de idiomas.
chirp_2 Usa la próxima generación de nuestro modelo de voz extenso universal (USM), que se basa en nuestra tecnología de modelo de lenguaje extenso (LLM), para la transmisión y el procesamiento por lotes, así como para las transcripciones y traducciones de contenido lingüístico diverso y funciones multilingües.
telephony Usa este modelo para el audio que se haya originado en una llamada telefónica, normalmente grabada a una frecuencia de muestreo de 8 kHz. Ideal para el servicio de atención al cliente, las teleconferencias y las aplicaciones de kioscos automatizadas.

Los siguientes modelos se basan en arquitecturas anteriores, no se mantienen de forma activa y se conservan principalmente por motivos de compatibilidad con versiones anteriores.

chirp Usa nuestro modelo de voz extenso universal (USM) para obtener transcripciones no de streaming de vanguardia en contenido lingüístico diverso y con funciones multilingües.
chirp_telephony Modelo de voz extenso universal (USM) ajustado para el audio procedente de una llamada telefónica (normalmente grabada a una frecuencia de muestreo de 8 kHz).
long Usa este modelo para cualquier tipo de contenido extenso, como contenido multimedia o conversaciones y discursos espontáneos. Te recomendamos que uses este modelo en lugar del modelo video o del default, sobre todo si no están disponibles en el idioma de destino.
short Usa este modelo para las expresiones cortas que duren unos segundos. Es útil para intentar captar comandos u otros casos prácticos de habla dirigida breve. Te recomendamos que uses este modelo en lugar del modelo de comandos y búsquedas.
telephony_short Versión específica del modelo telephony para expresiones cortas o incluso de una sola palabra en audio procedente de una llamada telefónica, normalmente grabada a una frecuencia de muestreo de 8 kHz. Es útil para las expresiones de solo unos segundos de duración en aplicaciones de servicio de atención al cliente, teleconferencias y kioscos automatizados.
medical_conversation Usa este modelo para conversaciones entre un proveedor médico (por ejemplo, un médico o una enfermera) y un paciente. Usa el modelo medical_conversation cuando hablen tanto el proveedor como el paciente. Las palabras que pronuncia cada interlocutor se detectan y se etiquetan automáticamente.
medical_dictation Usa este modelo para transcribir notas dictadas por un profesional médico. Por ejemplo, un médico que dicta notas sobre los resultados de un análisis de sangre de un paciente.

Seleccionar un modelo para la transcripción de audio

El modelo se especifica mediante el Recognizer usado en la solicitud de reconocimiento. Llama a speech/projects.locations.recognizers/create para crear un reconocedor y usa el campo model para especificar el modelo. Los modelos válidos para cada idioma se pueden consultar en la tabla Idiomas admitidos.