此页面由 Cloud Translation API 翻译。

语音转录

语音转录可将视频或视频片段中的语音转录为文本，并为已转录音频的各个部分返回文本块。

支持的模型

Video Intelligence 仅支持英语（美国）。对于其他语言，请使用 Speech-to-Text API，该 API 支持所有可用语言。如需查看可用语言的列表，请参阅 Speech-to-Text 文档中的语言支持部分。

要转录视频中的语音，请调用 annotate 方法并在 features 字段中指定 SPEECH_TRANSCRIPTION。

转录语音时，您可以使用以下功能：

替代词：对于要包括在响应中的已识别文本转换，使用 maxAlternatives 选项指定最大选项数量。该值可以是 1 到 30 之间的整数。默认值为 1。 API 根据转录的置信度值按降序返回多个转录内容。替代转录不包括单词级条目。
脏话过滤：使用 filterProfanity 选项过滤掉转录内容中已知的脏话。匹配的单词将替换为该单词的第一个字符，后跟星号。默认值为 false。
转录提示：使用 speechContexts 选项提供音频中的常见或不常见短语。然后，这些短语用于帮助转录服务创建更加准确的转录内容。您可以提供转录提示作为 SpeechContext 对象。
音轨选择：使用 audioTracks 选项指定要从多轨视频中转录哪个音轨。用户最多可指定两个轨道。默认值为 0。将语言代码设置为“en-US”后，请求会路由到“en-US”音频上的增强模式；但实际上并不会知道 en-US 或其他任何语言。如果我们将西班牙语音频输入增强模型，转录将运行其课程，但可能存在置信度分数较低的输出，或者根本没有输出—这是理想模型的预期。
自动标点符号：使用 enableAutomaticPunctuation 选项在转录文本中添加标点符号。默认值为 false。
多个讲话者：使用 enableSpeakerDiarization 选项识别视频中的不同讲话者。在响应中，每个已识别的单词将包括一个 speakerTag 字段，该字段用于标识该已识别的单词来自哪个讲话者。

为获得最佳效果，请提供以 16000Hz 或更高采样率录制的音频。

查看 Video Intelligence API 可视化工具，了解此功能的实际应用情况。

有关请求语音转录的示例，请参阅语音转录。