このページでは、Speech-to-Text を使用して複数のチャンネルを含む音声ファイルを文字変換する方法を説明します。マルチチャンネル認識は、すべてではないものの Speech-to-Text でサポートされているほとんどの音声エンコードで使用できます。各エンコード タイプの音声ファイルで認識されるチャンネル数については、audioChannelCount
をご覧ください。
AutoDetectDecodingConfig
を使用している場合は、ファイルに含まれる音声チャンネルの数を指定する必要はありません。これは自動的に決定されます。音声チャンネル数は、ExplicitDecodingConfig
を使用する場合にのみ指定する必要があります。
通常、音声データには録音中に存在している話者ごとに 1 つのチャンネルが含まれます。たとえば、2 人が電話で会話している音声では、回線ごとに別々に録音された 2 つのチャンネルが含まれます。
複数のチャネルを使用してリクエストを送信すると、Speech-to-Text は、音声内の異なるチャネルを識別する結果を、channelTag
フィールドで各結果の代替をラベル付けして返します。