이 페이지에서는 Speech-to-Text를 사용하여 2개 이상 채널이 포함된 오디오 파일을 텍스트로 변환하는 방법을 설명합니다. 다중 채널 인식은 전부는 아니라도 Speech-to-Text에서 지원되는 대부분의 오디오 인코딩에서 사용할 수 있습니다. 각각의 인코딩 유형의 오디오 파일에서 여러 채널을 인식하는 방법은 audioChannelCount
를 참조하세요.
AutoDetectDecodingConfig
를 사용하는 경우 파일에 있는 오디오 채널 수를 지정할 필요가 없습니다. 자동으로 결정됩니다. ExplicitDecodingConfig
를 사용할 때는 오디오 채널 수만 지정해야 합니다.
오디오 데이터에는 일반적으로 레코딩에 포함된 각 화자의 채널이 포함됩니다. 예를 들어 두 명이 전화로 이야기하는 오디오의 경우에는 개별적으로 레코딩되는 2개의 채널이 포함될 수 있습니다.
여러 채널이 포함된 요청을 보내면 Speech-to-Text가 오디오에 있는 서로 다른 채널을 식별하는 결과를 반환하며 channelTag
필드를 사용하여 각 결과를 대신하는 항목에 라벨을 지정합니다.