Speech-to-Text には、1 つの発話で構成された音声を認識するための latest_short
モデルが用意されています。これは、ユーザーが長いモノローグや音声入力ではなく、1 つの音声コマンドを発行する場合に便利です。
認識リクエストに latest_short
モデルの認識機能が使用されている場合、Speech-to-Text は発話の終了を検出すると認識を停止します。Speech-to-Text は、END_OF_SINGLE_UTTERANCE
タイプの音声アクティビティ イベント レスポンスに続いて音声文字変換の結果を返します。
1 つの発話と StreamingRecognize
StreamingRecognize
リクエストに対して latest_short
モデル Recognizer
が選択されている場合、Speech-to-Text は発話終了後にストリームを自動的に閉じます。
音声アクティビティ イベントが有効になっている場合
StreamingRecognize リクエストに対して音声アクティビティ イベントも有効になっている場合でも、Speech-to-Text は音声開始 / 終了の音声アクティビティ イベントを返します。音声開始時の音声アクティビティ タイムアウトは引き続き適用されます。音声が終了すると、音声アクティビティのタイムアウトは適用されません。これは、音声が終了するとすぐにストリームが終了するためです。