对话数据集包含对话转写数据,用于训练智能回复或摘要自定义模型。智能回复会使用对话转写向与最终用户对话的人工客服推荐文本响应。摘要自定义模型是根据同时包含转写和注解数据的对话数据集训练的。在对话结束后,他们会使用这些注释为人工客服生成对话摘要。
您可以通过以下两种方式创建数据集:使用控制台教程工作流,或使用控制台中的数据 -> 数据集标签页手动创建数据集。我们建议您优先使用控制台教程。如需使用控制台教程,请前往 Agent Assist 控制台,然后点击要测试的功能下方的开始使用按钮。
本页面演示了如何手动创建数据集。
准备工作
按照 Dialogflow 设置说明在 Google Cloud Platform 项目上启用 Dialogflow。
我们建议您在开始本教程之前先阅读 Agent Assist 的基础知识页面。
如果您要使用自己的转写数据来实现智能回复,请确保您的转写内容采用指定格式的
JSON
并存储在 Google Cloud Storage 存储桶中。一个对话数据集必须至少包含 30000 个对话,否则模型训练将失败。一般来说,对话数量越多,模型质量就越好。我们建议您移除所含消息少于 20 条或对话轮数(参与者说出话语的变化)少于 3 轮的所有对话。我们还建议您移除所有聊天机器人消息或系统自动生成的消息(例如“客服人员进入聊天室”)。我们建议您上传至少 3 个月的对话,以确保涵盖尽可能多的使用场景。一个对话数据集中的对话数量上限为 100 万。如果您要使用自己的转写内容和注解数据来实现摘要功能,请确保您的转写内容采用指定格式并存储在 Google Cloud Storage 存储桶中。建议的训练注释数量下限为 1,000 个。强制执行的最小数量为 100。
导航到 Agent Assist 控制台。选择您的 Google Cloud Platform 项目,然后点击页面最左侧的数据菜单选项。数据菜单会显示您的所有数据。该菜单包含两个标签页,分别为对话数据集和知识库。
点击对话数据集标签页,然后点击对话数据集页面右上角的 +新建按钮。
创建对话数据集
为新数据集输入名称和说明(可选)。在对话数据字段中,输入包含对话转录内容的存储桶的 URI。Agent Assist 支持使用
*
符号进行通配符匹配。URI 应采用以下格式:gs://<bucket name>/<object name>
例如:
gs://mydata/conversationjsons/conv0*.json gs://mydatabucket/test/conv.json
点击创建。现在,您的新数据集显示在数据菜单页面上对话数据集标签页下的数据集列表中。
后续步骤
使用 Agent Assist 控制台,基于一个或多个对话数据集训练智能回复或总结模型。