高级语音设置

本指南提供了有关语音功能的附加高级设置。您可以依次前往代理设置 > 语音和 IVR > Speech-to-Text > 高级语音设置,开启或关闭这些高级设置。

这些设置适用于代理设置(适用于整个代理)、流设置(适用于整个流并覆盖代理设置)、页面设置(适用于页面并覆盖流和代理设置)以及执行方式设置(适用于执行方式并覆盖页面、流和代理设置)。其中的部分设置可在每个级别使用,具体取决于级别的设置相关性。*您必须先在代理级别勾选启用高级语音设置复选框(代理设置 > 语音和 IVR > Speech-to-Text > 高级语音设置),然后才能在任何更低级别配置这些设置。*

如果在这些较低级别上选择了自定义选项,更新后的代理级设置不会传播到流、页面和执行级别。如果自定义选项包含多个设置,而您只想更新其中的部分设置,则可能还需要更新其他设置,以使其与代理级设置保持一致。

不同级别的设置可用性

下表显示了各个级别提供哪些高级语音设置:

设置名称 代理 流程 页面 履行情况
模型选择(Speech-to-Text)
语音结束的灵敏度
基于超时的高级语音结束灵敏度
启用智能端点
无语音超时
打断功能
允许取消部分响应播放
音频导出存储桶
DTMF

模型选择(Speech-to-Text)

可在代理、流和页面级设置。

设置用于语音识别的语音模型。此设置因语言而异,因此您可以为不同的语言选择不同的模型。您还可以选中替换请求级语音模型,这样即使运行时 API 调用指定了其他模型,系统也会使用所选模型。

如需了解 Conversational Agents (Dialogflow CX) 电话网关,请参阅限制。如需了解详情,请参阅语音模型

语音结束的灵敏度

可在代理、流和页面级设置。

控制识别最终用户音频输入中语音结束的灵敏度。该值的范围介于 0(低灵敏度,不太可能结束语音)到 100(高灵敏度,很有可能结束语音)之间。

基于超时的高级语音结束灵敏度

可以在代理级别设置,并在流和页面级别停用。

如果启用此设置,系统会使用语音结束敏感度设置值作为衡量标准,以建立相对的音频静音超时,以确定语音结束。如果此设置处于停用状态(默认),系统会使用语音结束敏感度设置值,通过 Google Cloud Speech-to-Text 提供的 ML 模型来确定语音结束。

默认情况下,语音结束敏感度设置仅支持 en-US 语言标记的 phone_call 语音模型,但启用基于超时的高级语音结束敏感度设置允许为 Dialogflow 支持的所有语言和语音模型配置语音结束敏感度。

启用智能端点

只能在代理级别设置。

如果启用此设置,对话式 AI 助理 (Dialogflow CX) 会分析部分用户输入内容,以确定语音结束时间。例如,如果用户说“我想”,然后暂停,对话式 AI 助理 (Dialogflow CX) 会等待用户继续说话。

这对于数字参数收集特别有用,因为用户可能会说“1234”,然后暂停一下,再说“5678”。如需为特定参数应用此设置,您必须在参数的表单中设置智能端点设置

此设置仅适用于 en-US 语言标记,默认处于停用状态。

无语音超时

可在代理、流和页面级设置。

Conversational Agents (Dialogflow CX) 停止等待最终用户音频输入的持续时间(以秒为单位)。默认值为 5 秒,最大值为 60 秒。对于此超时,Conversational Agents (Dialogflow CX) 会调用无输入事件

打断功能

可在代理、流程和执行方式级别设置。

启用后,最终用户可以中断 Conversational Agents (Dialogflow CX) 响应音频。中断后,Conversational Agents (Dialogflow CX) 将停止发送音频,并将处理下一个最终用户输入。

如果消息队列中有多个消息,并且消息被与启用了打断功能的网页、流或代理关联的 fulfillment 加入队列,则队列中的所有后续消息也会启用打断功能。在这种情况下,集成会停止播放所有启用了打断功能的排入队列的消息的音频。

允许取消部分响应播放

只能在执行方式级别设置。

当您在代理设置 > 语音和 IVR 中选中启用高级语音设置复选框,并在执行方式级别启用部分响应时,即可启用此设置。此设置允许取消部分响应的播放。

如果消息队列中的消息由允许取消的执行方式创建,则如果向队列中添加其他消息,系统会取消该消息的播放。如果您希望初始消息开始播放,但如果在初始消息播放完成之前,有效的 webhook 生成了另一条消息,则取消该播放,这非常有用。

音频导出存储桶

可在代理和数据流级设置。

如果提供,则与请求关联的任何音频数据都将保存到 Cloud Storage 存储桶:

已保存音频 适用的请求
最终用户音频输入 DetectIntent、StreamingDetectIntent、AnalyzeContent、StreamingAnalyzeContent
为响应合成的 Text-to-Speech (TTS) 音频 AnalyzeContent、StreamingAnalyzeContent

Storage Object Creator 角色授予项目中的以下服务账号:

  • 格式为 one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com 的服务账号(如果您使用合作伙伴内置电话集成)。

  • 格式为 service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com 的服务账号(如果您使用 Dialogflow CX 电话网关集成)。如需在 IAM 中查找此服务账号,请选中包括 Google 提供的角色授权选项。

DTMF

如需详细了解此功能,请参阅 DTMF(双音多频信号)文档