Transcrever áudio com vários canais

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Nesta página, descrevemos como usar a Speech-to-Text para transcrever arquivos de áudio que incluem mais de um canal. O reconhecimento multicanal está disponível para a maioria, mas não todas, as codificações de áudio compatíveis com a Speech-to-Text. Para informações sobre quantos canais são reconhecidos em arquivos de áudio de cada tipo de codificação, consulte audioChannelCount.

Se você estiver usando o AutoDetectDecodingConfig, não precisará especificar quantos canais de áudio o arquivo tem. Ele será determinado automaticamente. Especifique o número de canais de áudio somente ao usar o ExplicitDecodingConfig.

Os dados de áudio geralmente incluem um canal para cada locutor presente na gravação. Por exemplo, o áudio de duas pessoas falando por telefone pode conter dois canais, em que cada linha é gravada separadamente.

Quando você envia uma solicitação com vários canais, a Speech-to-Text retorna um resultado que identifica os diferentes canais presentes no áudio, rotulando as alternativas para cada resultado com o campo channelTag.