1 つの発話の動作

Speech-to-Text には、1 つの発話で構成された音声を認識するための latest_short モデルが用意されています。これは、ユーザーが長いモノローグや音声入力ではなく、1 つの音声コマンドを発行する場合に便利です。

認識リクエストに latest_short モデルの認識機能が使用されている場合、Speech-to-Text は発話の終了を検出すると認識を停止します。Speech-to-Text は、END_OF_SINGLE_UTTERANCE タイプの音声アクティビティイベントレスポンスに続いて音声文字変換の結果を返します。

1 つの発話と StreamingRecognize

StreamingRecognize リクエストに latest_short モデル Recognizer が選択されている場合、Speech-to-Text は発話終了後にストリームを自動的に閉じます。

音声アクティビティイベントが有効になっている場合

StreamingRecognize リクエストに対して音声アクティビティイベントも有効になっている場合でも、Speech-to-Text は音声開始 / 終了の音声アクティビティイベントを返します。音声開始時の音声アクティビティタイムアウトは引き続き適用されます。音声が終了すると、音声アクティビティのタイムアウトは適用されません。これは、音声が終了するとすぐにストリームが終了するためです。

1 つの発話の動作 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

1 つの発話と StreamingRecognize

音声アクティビティ イベントが有効になっている場合

1 つの発話の動作

音声アクティビティイベントが有効になっている場合