本页面介绍了如何使用 Speech-to-Text 转录包含多个通道的音频文件。多通道识别适用于 Speech-to-Text 支持的大多数(但不是全部)音频编码。如需了解每种编码类型的音频文件中识别出的通道数量,请参阅 audioChannelCount
。
如果您使用的是 AutoDetectDecodingConfig
,则无需指定文件具有的音频通道数量。系统可自动确定此值。只有在使用 ExplicitDecodingConfig
时,才必须指定音频通道数。
通常情况下,对于录音中出现的每名讲话人,音频数据都会包含一个对应的通道。例如,通过电话交谈的两个人的音频可能包含两个通道,分别记录通话双方的线路。
在您发送包含多个通道的请求后,Speech-to-Text 会向您返回标识音频中不同通道的结果,并使用 channelTag
字段标记每个结果的替代项。