En esta página, se describe cómo usar Speech-to-Text para transcribir archivos de audio que incluyen más de un canal. El reconocimiento de varios canales está disponible para la mayoría de las codificaciones de audio compatibles con Speech-to-Text, pero no para todas. Para obtener información sobre cuántos canales se reconocen en los archivos de audio de cada tipo de codificación, consulta audioChannelCount
.
Si usas AutoDetectDecodingConfig
, no tienes que especificar cuántos canales de audio tiene el archivo. Se determinará de forma automática. Solo debes especificar el recuento de canales de audio cuando usas ExplicitDecodingConfig
.
Los datos de audio suelen incluir un canal para cada interlocutor presente en la grabación. Por ejemplo, el audio de dos personas que hablan por teléfono puede contener dos canales, en los que cada línea se graba por separado.
Cuando envías una solicitud con varios canales a Speech-to-Text, se muestra un resultado en el que se identifican los distintos canales presentes en el audio y también se etiquetan las alternativas para cada resultado con el campo channelTag
.