转录多通道音频

使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

本页面介绍了如何使用 Speech-to-Text 转录包含多个通道的音频文件。多通道识别适用于 Speech-to-Text 支持的大多数(但不是全部)音频编码。如需了解每种编码类型的音频文件中识别出的通道数量,请参阅 audioChannelCount

如果您使用的是 AutoDetectDecodingConfig,则无需指定文件具有的音频通道数量。系统可自动确定此值。只有在使用 ExplicitDecodingConfig 时,才必须指定音频通道数。

通常情况下,对于录音中出现的每名讲话人,音频数据都会包含一个对应的通道。例如,通过电话交谈的两个人的音频可能包含两个通道,分别记录通话双方的线路。

在您发送包含多个通道的请求后,Speech-to-Text 会向您返回标识音频中不同通道的结果,并使用 channelTag 字段标记每个结果的替代项。