En esta página se describe cómo usar un modelo de aprendizaje automático específico para enviar solicitudes de transcripción de audio a Speech-to-Text.
Modelos de transcripción
Speech-to-Text detecta palabras en un clip de audio comparando la entrada con uno de los muchos modelos de aprendizaje automático. Cada modelo se ha entrenado analizando millones de ejemplos. En este caso, se trata de muchísimas grabaciones de audio de personas hablando.
Speech-to-Text tiene modelos especializados que se entrenan a partir de audio de fuentes específicas. Estos modelos ofrecen mejores resultados cuando se aplican a tipos de datos de audio similares a los datos con los que se han entrenado.
En la siguiente tabla se muestran los modelos de transcripción que se pueden usar con la API Speech-to-Text V2.
Nombre del modelo | Descripción |
---|---|
chirp_3 |
Usa la última generación de modelos generativos multilingües específicos de reconocimiento automático del habla (RAA) de Google, diseñados para satisfacer las necesidades de tus usuarios en función de sus comentarios y su experiencia. Chirp 3 ofrece una mayor precisión y velocidad que los modelos anteriores de Chirp, así como la diarización y la detección automática de idiomas. |
chirp_2 |
Usa la próxima generación de nuestro modelo de voz extenso universal (USM), que se basa en nuestra tecnología de modelo de lenguaje extenso (LLM), para la transmisión y el procesamiento por lotes, así como para las transcripciones y traducciones de contenido lingüístico diverso y funciones multilingües. |
telephony |
Usa este modelo para el audio que se haya originado en una llamada telefónica, normalmente grabada a una frecuencia de muestreo de 8 kHz. Ideal para el servicio de atención al cliente, las teleconferencias y las aplicaciones de kioscos automatizadas. |
Los siguientes modelos se basan en arquitecturas anteriores, no se mantienen de forma activa y se conservan principalmente por motivos de compatibilidad con versiones anteriores.
chirp |
Usa nuestro modelo de voz extenso universal (USM) para obtener transcripciones no de streaming de vanguardia en contenido lingüístico diverso y con funciones multilingües. |
chirp_telephony |
Modelo de voz extenso universal (USM) ajustado para el audio procedente de una llamada telefónica (normalmente grabada a una frecuencia de muestreo de 8 kHz). |
long |
Usa este modelo para cualquier tipo de contenido extenso, como contenido multimedia o conversaciones y discursos espontáneos. Te recomendamos que uses este modelo en lugar del modelo video o del default , sobre todo si no están disponibles en el idioma de destino. |
short |
Usa este modelo para las expresiones cortas que duren unos segundos. Es útil para intentar captar comandos u otros casos prácticos de habla dirigida breve. Te recomendamos que uses este modelo en lugar del modelo de comandos y búsquedas. |
telephony_short |
Versión específica del modelo telephony para expresiones cortas o incluso de una sola palabra en audio procedente de una llamada telefónica, normalmente grabada a una frecuencia de muestreo de 8 kHz. Es útil para las expresiones de solo unos segundos de duración en aplicaciones de servicio de atención al cliente, teleconferencias y kioscos automatizados. |
medical_conversation |
Usa este modelo para conversaciones entre un proveedor médico (por ejemplo, un médico o una enfermera) y un paciente. Usa el modelo medical_conversation cuando hablen tanto el proveedor como el paciente. Las palabras que pronuncia cada interlocutor se detectan y se etiquetan automáticamente. |
medical_dictation |
Usa este modelo para transcribir notas dictadas por un profesional médico. Por ejemplo, un médico que dicta notas sobre los resultados de un análisis de sangre de un paciente. |
Seleccionar un modelo para la transcripción de audio
El modelo se especifica mediante el Recognizer
usado en la solicitud de reconocimiento. Llama a speech/projects.locations.recognizers/create
para crear un reconocedor y usa el campo model
para especificar el modelo. Los modelos válidos para cada idioma se pueden consultar en la tabla Idiomas admitidos.