Transcripción de voz

La transcripción de voz transcribe el audio hablado de un segmento de video o video en texto y muestra bloques de texto para cada parte del audio transcrito.

Modelos compatibles

Video Intelligence solo admite inglés (EE.UU.). Para otros idiomas, usa la API de Speech-to-Text, que admite todos los idiomas disponibles. Para ver la lista de idiomas disponibles, consulta Compatibilidad de idiomas en la documentación de Speech-to-Text.

Para transcribir la voz de un video, llama al método annotate y especifica SPEECH_TRANSCRIPTION en el campo features.

Puedes usar las siguientes funciones cuando transcribas voz:

  • Palabras alternativas: Usa la opción maxAlternatives a fin de especificar el número máximo de opciones para incluir traducciones de texto reconocidas en la respuesta. Este valor puede ser un número entero entre 1 y 30. El valor predeterminado es 1. La API muestra varias transcripciones en orden descendente según el valor de confianza de la transcripción. Las transcripciones alternativas no incluyen entradas a nivel de palabra.

  • Filtrado de lenguaje obsceno: Usa la opción filterProfanity para filtrar lenguaje obsceno conocido en las transcripciones. Las palabras que coinciden se reemplazan por el carácter inicial de la palabra seguida de asteriscos. El valor predeterminado es falso.

  • Sugerencias de transcripción: Usa la opción speechContexts para proporcionar frases comunes o inusuales en tu audio. Luego, estas frases se usan para asistir al servicio de transcripción para crear transcripciones más precisas. Proporcionas una sugerencia de transcripción como un objeto SpeechContext.

  • Selección de pista de audio: Usa la opción audioTracks para especificar qué pista se debe transcribir del video de varias pistas. Los usuarios pueden especificar hasta dos segmentos. El valor predeterminado es 0. Una vez que el código de idioma se configura en "en-US", la solicitud se enruta al modo mejorado, que se entrena con audio en inglés estadounidense, pero no sabe inglés ni en otros idiomas. Si alimentamos un audio en español en el modelo mejorado, la transcripción ejecutará su curso, pero puede haber resultados con puntuaciones de confianza bajas o ningún resultado, lo que se espera de un buen modelo.

  • Puntuación automática: Usa la opción enableAutomaticPunctuation para incluir la puntuación en el texto transcrito. El valor predeterminado es falso.

  • Varios interlocutores: Usa la opción enableSpeakerDiarization para identificar a los diferentes interlocutores en un video. En la respuesta, cada palabra reconocida incluye un campo speakerTag que identifica a qué interlocutor se atribuye la palabra reconocida.

Para obtener los mejores resultados, proporciona audio grabado a 16,000 Hz o con una tasa de muestreo mayor.

Consulta el visualizador de la API de Video Intelligence para ver esta función en acción.

Para ver ejemplos de solicitud de transcripción de voz, consulta Transcripción de voz.