Seleccionar un modelo de transcripción

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

En esta página, se describe cómo usar un modelo de aprendizaje automático específico para las solicitudes de transcripción de audio a Speech-to-Text.

Modelos de transcripción

Speech-to-Text detecta palabras en un clip de audio mediante la comparación de los datos de entrada en uno de muchos modelos de aprendizaje automático. Cada modelo se ha entrenado mediante el análisis de millones de ejemplos, en este caso, muchísimas grabaciones de audio de personas hablando.

Speech-to-Text tiene modelos especializados que se entrenan a partir de audio desde fuentes específicas. Estos modelos proporcionan mejores resultados cuando se aplican a tipos de datos de audio similares a los datos en los que se entrenaron.

Por ejemplo, Speech-to-Text tiene un modelo de transcripción entrenado para reconocer la voz capturada en un teléfono. Cuando Speech-to-Text usa el modelo telephony para transcribir el audio del teléfono, produce resultados de transcripción más precisos que si se transcribiera audio del teléfono usando los modelos latest_long o medical_dictation, por ejemplo.

En la siguiente tabla, se muestran los modelos de transcripción disponibles para usar con Speech-to-Text.

Nombre del modelo Descripción
latest_long Usa este modelo para cualquier tipo de contenido de formato largo, como el contenido multimedia o las conversaciones espontáneas.
latest_short Usa este modelo para expresiones cortas que duran pocos segundos. Es útil para intentar capturar comandos u otro caso de uso de expresiones únicas de voz dirigida. Cuando usas este modelo, el servicio dejará de transcribir audio después de que se detecte y complete la primera expresión. Con este modelo, no se admite el reconocimiento independiente por canal. Si bien el servicio aceptará el audio multicanal, solo se procesará y reconocerá el primer canal.
telephony La mejor opción para audios que pertenecen a una llamada telefónica (en general, grabada con una tasa de muestreo de 8 kHz).
medical_dictation Usa este modelo para transcribir notas dictadas por un profesional de la salud, por ejemplo, un médico que dicta notas sobre los resultados de los exámenes de sangre de un paciente.
medical_conversation Usa este modelo para las conversaciones entre un proveedor de atención médica (por ejemplo, personal médico o de enfermería) y un paciente. Usa este modelo cuando hablen un proveedor y un paciente. Las palabras que dice cada interlocutor se detectan y etiquetan de forma automática en la transcripción que se muestra.

Selecciona un modelo para la transcripción de audio

El Reconocedor especifica el modelo que se usa para la solicitud de reconocimiento. Llama a speech/projects.locations.recognizers/create para crear un reconocedor y usa el campo model para especificar el modelo. Los modelos válidos son latest_long, latest_short, telephony, medical_dictation o medical_conversation.