Dialogflow 音声エージェントは、音声認識に Dialogflow の料金に含まれている Speech-to-Text を使用します。Dialogflow によって自動的に音声認識モデルが選択されますが、必要に応じてモデルを指定することもできます。
使用可能なモデル
使用可能なすべてのモデルについては、Speech-to-Text モデルをご覧ください。ドメインに最適なモデルを選択し、エージェントの言語と音声機能をサポートします。
モデルが明示的に指定されていない場合、Dialogflow は API リクエストとエージェント設定の音声構成に基づいてモデルを自動的に選択します。
エージェントで拡張音声モデルが有効になっていて、その言語の指定モデルに拡張バージョンが存在しない場合、指定されたモデルの標準バージョンを使用して音声が認識されます。通常、次のモデルのパフォーマンスが最も高くなります。
- telephony_short(テレフォニー Dialogflow に最適)
- telephony(Agent Assist に最適)
- phone_call(Agent Assist とテレフォニー Dialogflow に推奨)
- latest_short(テレフォニー以外の Dialogflow に最適)
- command_and_search(他のモデルが利用できない言語に最適)
モデルを指定する
Sessions
タイプの detectIntent
メソッドまたは streamingDetectIntent
メソッドを呼び出すとき、または Agent Assist の ConversationProfile
を構成するときにモデルを指定できます。