1 つの発話の動作

Speech-to-Text には、1 つの発話で構成された音声を認識するための latest_short モデルが用意されています。これは、ユーザーが長いモノローグや音声入力ではなく、1 つの音声コマンドを発行する場合に便利です。

認識リクエストに latest_short モデルの認識機能が使用されている場合、Speech-to-Text は発話の終了を検出すると認識を停止します。Speech-to-Text は、END_OF_SINGLE_UTTERANCE タイプの音声アクティビティ イベント レスポンスに続いて音声文字変換の結果を返します。

1 つの発話と StreamingRecognize

StreamingRecognize リクエストに対して latest_short モデル Recognizer が選択されている場合、Speech-to-Text は発話終了後にストリームを自動的に閉じます。

音声アクティビティ イベントが有効になっている場合

StreamingRecognize リクエストに対して音声アクティビティ イベントも有効になっている場合でも、Speech-to-Text は音声開始 / 終了の音声アクティビティ イベントを返します。音声開始時の音声アクティビティ タイムアウトは引き続き適用されます。音声が終了すると、音声アクティビティのタイムアウトは適用されません。これは、音声が終了するとすぐにストリームが終了するためです。