Seleccionar un modelo de transcripción

En esta página, se describe cómo usar un modelo de aprendizaje automático específico para las solicitudes de transcripción de audio a Speech-to-Text.

Modelos de transcripción

Speech-to-Text detecta palabras en un clip de audio mediante la comparación de los datos de entrada en uno de muchos modelos de aprendizaje automático. Cada modelo se ha entrenado mediante el análisis de millones de ejemplos, en este caso, muchísimas grabaciones de audio de personas hablando.

Speech-to-Text tiene modelos especializados que se entrenan a partir de audio desde fuentes específicas. Estos modelos proporcionan mejores resultados cuando se aplican a tipos de datos de audio similares a los datos en los que se entrenaron.

Por ejemplo, Speech-to-Text tiene un modelo de transcripción entrenado para reconocer la voz capturada en un teléfono. Cuando Speech-to-Text usa el modelo telephony para transcribir el audio del teléfono, produce resultados de transcripción más precisos que si se transcribiera audio del teléfono usando los modelos latest_long o medical_dictation, por ejemplo.

En la siguiente tabla, se muestran los modelos de transcripción disponibles para usar con Speech-to-Text.

Nombre del modelo Descripción
long Usa este modelo para cualquier tipo de contenido de formato largo, como el contenido multimedia o las conversaciones espontáneas. Considera usar este modelo en lugar del modelo “video” o “predeterminado”, en especial si no están disponibles en tu idioma objetivo.
short Usa este modelo para expresiones cortas que duran pocos segundos. Es útil para intentar capturar comandos u otro caso de uso de expresiones únicas y breves de voz dirigida. Considera usar este modelo en lugar del modelo de comando y búsqueda.
telephony Usa este modelo para audio que se originó a partir de una llamada telefónica de audio, que generalmente se graba con una tasa de muestreo de 8 kHz. Es ideal para atención al cliente, teleconferencias y aplicaciones de kiosco automatizadas.
medical_dictation Usa este modelo para transcribir notas dictadas por un profesional de la salud, por ejemplo, un médico que dicta notas sobre los resultados de los exámenes de sangre de un paciente.
medical_conversation Usa este modelo para las conversaciones entre un proveedor de atención médica (por ejemplo, personal médico o de enfermería) y un paciente. Usa el modelo “medical_conversation” cuando hablen un proveedor y un paciente. Las palabras que dice cada interlocutor se detectan y etiquetan de forma automática.
chirp Usa nuestro gran modelo Universal Speech Model (USM) para transcripciones de vanguardia que no son de transmisiones en contenido lingüístico diverso y con capacidades multilingües.
chirp_telephony El Universal Speech Model (USM) se ajusta para el audio que se origina desde una llamada telefónica (en general, grabada con una tasa de muestreo de 8 kHz).
chirp_2 Usa la nueva generación de nuestro modelo de voz universal (USM) grande con la tecnología de Gemini para transcripciones y traducciones sin transmisión en varios contenidos lingüísticos y capacidades multilingües.

Selecciona un modelo para la transcripción de audio

El Reconocedor especifica el modelo que se usa para la solicitud de reconocimiento. Llama a speech/projects.locations.recognizers/create para crear un reconocedor y usa el campo model para especificar el modelo. Puedes encontrar modelos válidos para cada idioma en la tabla Idiomas compatibles.