语音转录可将视频或视频片段中的语音转录为文本,并为已转录音频的各个部分返回文本块。
支持的模型
Video Intelligence 仅支持英语(美国)。对于其他语言,请使用 Speech-to-Text API,该 API 支持所有可用语言。如需查看可用语言的列表,请参阅 Speech-to-Text 文档中的语言支持部分。
要转录视频中的语音,请调用 annotate
方法并在 features
字段中指定 SPEECH_TRANSCRIPTION
。
转录语音时,您可以使用以下功能:
替代词:对于要包括在响应中的已识别文本转换,使用
maxAlternatives
选项指定最大选项数量。该值可以是 1 到 30 之间的整数。默认值为 1。 API 根据转录的置信度值按降序返回多个转录内容。替代转录不包括单词级条目。脏话过滤:使用
filterProfanity
选项过滤掉转录内容中已知的脏话。匹配的单词将替换为该单词的第一个字符,后跟星号。默认值为 false。转录提示:使用
speechContexts
选项提供音频中的常见或不常见短语。然后,这些短语用于帮助转录服务创建更加准确的转录内容。您可以提供转录提示作为 SpeechContext 对象。音轨选择:使用
audioTracks
选项指定要从多轨视频中转录哪个音轨。用户最多可指定两个轨道。默认值为 0。 将语言代码设置为“en-US”后,请求会路由到“en-US”音频上的增强模式;但实际上并不会知道 en-US 或其他任何语言。如果我们将西班牙语音频输入增强模型,转录将运行其课程,但可能存在置信度分数较低的输出,或者根本没有输出—这是理想模型的预期。自动标点符号:使用
enableAutomaticPunctuation
选项在转录文本中添加标点符号。默认值为 false。多个讲话者:使用
enableSpeakerDiarization
选项识别视频中的不同讲话者。在响应中,每个已识别的单词将包括一个speakerTag
字段,该字段用于标识该已识别的单词来自哪个讲话者。
为获得最佳效果,请提供以 16000Hz 或更高采样率录制的音频。
查看 Video Intelligence API 可视化工具,了解此功能的实际应用情况。
有关请求语音转录的示例,请参阅语音转录。