高级语音设置

本指南提供有关语音功能的附加高级设置。您可以依次前往代理设置 > 语音和 IVR > Speech-to-Text > 高级语音设置，开启或关闭这些高级设置。

这些设置适用于代理设置（适用于整个代理）、流设置（适用于整个流并覆盖代理设置）、页面设置（适用于页面并覆盖流和代理设置）以及 fulfillment 设置（适用于 fulfillment 并覆盖页面、流和代理设置）。其中的部分设置可在每个级别使用，具体取决于级别的设置相关性。*在任何较低级别配置这些设置之前，您必须先在代理级别选中启用高级语音设置框（代理设置 > 语音和 IVR > Speech-to-Text > 高级语音设置）。

如果这些较低级别选择了自定义选项，更新后的代理级设置不会传播到流、页面和实现级别。如果自定义选项包含多项设置，而您只想更新其中的一部分，那么如果您希望其他设置与代理级设置保持一致，可能还需要更新这些设置。

各级别的设置可用性

下表显示了每个级别可用的高级语音设置：

设置名称	代理	流程	页面	履行情况
模型选择（Speech-to-Text）	✔	✔	✔
结束语音识别的灵敏度	✔	✔	✔
基于超时的高级语音结束灵敏度	✔	✔	✔
启用智能断点	✔
无语音超时	✔	✔	✔
打断功能	✔	✔		✔
允许取消部分回答播放				✔
音频导出存储桶	✔	✔
DTMF	✔	✔	✔

模型选择（Speech-to-Text）

可以在代理、流和页面级层设置。

设置用于语音识别的语音模型。此设置是特定于语言的，因此您可以为不同的语言选择不同的模型。您还可以选中替换请求级语音模型，这样即使运行时 API 调用指定了其他模型，系统也会使用所选模型。

对于 Conversational Agents (Dialogflow CX) 电话网关，请参阅限制。如需了解详情，请参阅语音模型。

结束语音识别的灵敏度

可以在代理、流和页面级层设置。

控制识别最终用户音频输入中语音结束的灵敏度。该值的范围介于 0（低灵敏度，不太可能结束语音）到 100（高灵敏度，很有可能结束语音）之间。

基于超时的高级语音结束灵敏度

可以在代理级层设置，并在流级层和页面级层停用。

如果启用此设置，系统会使用语音结束灵敏度设置值作为衡量标准，以确定相对的音频静音超时时间，从而确定语音结束时间。如果此设置处于停用状态（默认），系统会使用语音结束灵敏度设置值，通过 Google Cloud Speech-to-Text 提供的机器学习模型来确定语音结束时间。

虽然结束语音识别的灵敏度设置默认仅支持 en-US 语言标记的 phone_call 语音模型，但启用基于高级超时时间的结束语音识别的灵敏度设置允许为 Dialogflow 支持的所有语言和语音模型配置结束语音识别的灵敏度。

启用智能断点

只能在代理级层设置。

如果启用此设置，对话智能体 (Dialogflow CX) 将分析部分用户输入，以确定语音结束时间。例如，如果用户说“我想”，然后停顿，对话智能体 (Dialogflow CX) 会等待用户继续说下去。

这对于收集数字参数特别有用，因为用户可能会先说“1234”，然后暂停一下再说“5678”。如需为特定参数应用此设置，您必须在参数的表单中设置智能端点。

此设置仅适用于 en-US 语言标记，默认处于停用状态。

无语音超时

可以在代理、流和页面级层设置。

Conversational Agents (Dialogflow CX) 停止等待最终用户音频输入的持续时间（以秒为单位）。默认值为 5 秒，最大值为 60 秒。对于此超时，Conversational Agents (Dialogflow CX) 会调用无输入事件。

打断功能

可在代理、流和履单级层设置。

启用后，最终用户可以中断 Conversational Agents (Dialogflow CX) 响应音频。中断后，Conversational Agents (Dialogflow CX) 将停止发送音频，并将处理下一个最终用户输入。

如果消息队列中有多个消息，并且消息被与启用了打断功能的网页、流或代理关联的 fulfillment 加入队列，则队列中的所有后续消息也会启用打断功能。在这种情况下，集成会停止播放所有启用了打断功能的排入队列的消息的音频。

允许取消部分回答播放

只能在履单级别设置。

在代理设置 > 语音和 IVR 中选中启用高级语音设置复选框，并在 fulfillment 级别启用部分响应后，即可启用此设置。此设置允许取消部分响应播放。

如果消息队列中的消息是由允许取消的 fulfillment 创建的，那么当队列中添加另一条消息时，系统会取消该消息的播放。如果您希望初始消息开始播放，但如果工作 webhook 在初始消息播放完成之前生成另一条消息，则取消该播放，那么此功能非常有用。

音频导出存储桶

可在代理级层和流级层设置。

如果提供，则与请求关联的所有音频数据都将保存到 Cloud Storage 存储桶：

音频已保存	适用的请求
最终用户音频输入	DetectIntent、StreamingDetectIntent、AnalyzeContent、StreamingAnalyzeContent
为响应合成的 Text-to-Speech (TTS) 音频	AnalyzeContent、StreamingAnalyzeContent

将 Storage Object Creator 角色授予项目中的以下服务账号：

格式为 one-click@df-cx-ALPHANUMERIC_VALUE-ALPHANUMERIC_VALUE.iam.gserviceaccount.com 的服务账号（如果您使用合作伙伴内置电话集成）。
格式为 service-PROJECT_NUMBER@gcp-sa-dialogflow.iam.gserviceaccount.com 的服务账号（如果您使用 Dialogflow CX 电话网关集成）。如需在 IAM 中查找此服务账号，请选中包括 Google 提供的角色授权选项。

DTMF

如需详细了解此功能，请参阅 DTMF（双音多频信号）文档。

语音自适应

2024 年第 1 季度语音模型迁移