Transcripción de voz

La transcripción de voz transcribe el audio hablado de un segmento de video o video en texto y muestra bloques de texto para cada parte del audio transcrito.

Modelos compatibles

Video Intelligence solo admite inglés (EE.UU.). Para otros idiomas, usa la API de Speech-to-Text, que es compatible con todos los idiomas disponibles (consulta la compatibilidad con idiomas).

Para transcribir la voz de un video, llama al método annotate y especifica SPEECH_TRANSCRIPTION en el campo features.

Puedes usar las siguientes funciones cuando transcribas voz:

  • Palabras alternativas: Usa la opción maxAlternatives a fin de especificar la cantidad máxima de opciones para que las traducciones de texto reconocidas se incluyan en la respuesta. Este valor puede ser un número entero entre 1 y 30. El valor predeterminado es 1. La API muestra varias transcripciones en orden descendente según el valor de confianza de la transcripción. Las transcripciones alternativas no incluyen entradas a nivel de palabra.

  • Filtrado de pronunciación: Usa la opción filterProfanity para filtrar las posibilidades conocidas en las transcripciones. Las palabras que coinciden se reemplazan por el carácter inicial de la palabra seguida de asteriscos. El valor predeterminado es falso.

  • Sugerencias de transcripción: Usa la opción speechContexts para proporcionar frases comunes o inusuales en tu audio. Luego, estas frases se usan para asistir al servicio de transcripción para crear transcripciones más precisas. Proporcionas una sugerencia de transcripción como un objeto SpeechContext.

  • Selección de pista de audio: Usa la opción audioTracks para especificar qué pista se debe transcribir del video de varias pistas. Los usuarios pueden especificar hasta dos segmentos. El valor predeterminado es 0. Una vez que el código de idioma se configura en "en-US", la solicitud se enruta al modo mejorado, que se entrena en audio de inglés estadounidense; pero en realidad no sabe inglés en otros idiomas de forma correcta. Si alimentamos un audio en español en el modelo mejorado, la transcripción ejecutará su curso, pero puede haber salidas con puntuaciones de confianza bajas o ningún resultado, lo que se espera de un buen modelo.

  • Puntuación automática: Usa la opción enableAutomaticPunctuation para incluir la puntuación en el texto transcrito. El valor predeterminado es falso.

  • Varias bocinas: Usa la opción enableSpeakerDiarization para identificar a los diferentes interlocutores en un video. En la respuesta, cada palabra reconocida incluye un campo speakerTag que identifica a qué interlocutor se atribuye la palabra reconocida.

Para obtener los mejores resultados, proporciona audio grabado a 16,000 Hz o con una tasa de muestreo mayor.

Para ver ejemplos de solicitud de transcripción de voz, consulta Transcripción de voz.