语音转录

语音转录可将视频或视频片段中的语音转录为文本,并为已转录音频的各个部分返回文本块。

支持的模型

Video Intelligence 仅支持英语(美国)。对于其他语言,请使用 Speech-to-Text API,该 API 支持所有可用语言。如需查看可用语言的列表,请参阅 Speech-to-Text 文档中的语言支持部分。

要转录视频中的语音,请调用 annotate 方法并在 features 字段中指定 SPEECH_TRANSCRIPTION

转录语音时,您可以使用以下功能:

  • 替代词:对于要包括在响应中的已识别文本转换,使用 maxAlternatives 选项指定最大选项数量。该值可以是 1 到 30 之间的整数。默认值为 1。 API 根据转录的置信度值按降序返回多个转录内容。替代转录不包括单词级条目。

  • 脏话过滤:使用 filterProfanity 选项过滤掉转录内容中已知的脏话。匹配的单词将替换为该单词的第一个字符,后跟星号。默认值为 false。

  • 转录提示:使用 speechContexts 选项提供音频中的常见或不常见短语。然后,这些短语用于帮助转录服务创建更加准确的转录内容。您可以提供转录提示作为 SpeechContext 对象。

  • 音轨选择:使用 audioTracks 选项指定要从多轨视频中转录哪个音轨。用户最多可指定两个轨道。默认值为 0。 将语言代码设置为“en-US”后,请求会路由到“en-US”音频上的增强模式;但实际上并不会知道 en-US 或其他任何语言。如果我们将西班牙语音频输入增强模型,转录将运行其课程,但可能存在置信度分数较低的输出,或者根本没有输出—这是理想模型的预期。

  • 自动标点符号:使用 enableAutomaticPunctuation 选项在转录文本中添加标点符号。默认值为 false。

  • 多个讲话者:使用 enableSpeakerDiarization 选项识别视频中的不同讲话者。在响应中,每个已识别的单词将包括一个 speakerTag 字段,该字段用于标识该已识别的单词来自哪个讲话者。

为获得最佳效果,请提供以 16000Hz 或更高采样率录制的音频。

查看 Video Intelligence API 可视化工具,了解此功能的实际应用情况。

有关请求语音转录的示例,请参阅语音转录