创建对话数据集

对话数据集包含对话转录数据,用于训练智能回复或总结自定义模型。智能回复使用对话记录向与最终用户对话的人工客服推荐文本响应。总结自定义模型基于包含转录和注解数据的对话数据集进行训练。在对话结束后,他们会使用注释生成对话摘要,供人工客服参考。

您可以通过两种方式创建数据集:使用控制台教程工作流,或在控制台中手动创建数据集(依次选择数据 -> 数据集标签页)。我们建议您首先使用控制台教程。如需使用控制台教程,请前往 Agent Assist 控制台,然后点击您要测试的功能下方的开始按钮。

本页演示了如何手动创建数据集。

准备工作

  1. 按照 Dialogflow 设置说明在 Google Cloud Platform 项目上启用 Dialogflow。

  2. 我们建议您在开始本教程之前先阅读 Agent Assist 的基础知识页面。

  3. 如果您要使用自己的转录数据来实现智能回复,请确保您的转录内容采用指定格式JSON 并存储在 Google Cloud Storage 存储桶中。一个对话数据集必须至少包含 30000 个对话,否则模型训练将失败。一般来说,对话数量越多,模型质量就越好。我们建议您移除所含消息少于 20 条或对话轮数(参与者说出话语的变化)少于 3 轮的所有对话。我们还建议您移除任何聊天机器人消息或系统自动生成的消息(例如“客服人员进入聊天室”)。我们建议您上传至少 3 个月的对话,以确保涵盖尽可能多的使用场景。一个对话数据集中的对话数量上限为 100 万。

  4. 如果您要使用自己的转录和注解数据来实现总结功能,请确保您的转录内容采用指定格式并存储在 Google Cloud Storage 存储桶中。建议的最小训练注释数量为 1000。强制执行的最小值是 100。

  5. 导航到 Agent Assist 控制台。选择您的 Google Cloud Platform 项目,然后点击页面最左侧的数据菜单选项。数据菜单会显示您的所有数据。该菜单包含两个标签页,分别为对话数据集知识库

  6. 点击对话数据集标签页,然后点击对话数据集页面右上角的 +新建按钮。

创建对话数据集

  1. 为新数据集输入名称说明(可选)。在对话数据字段中,输入包含对话转录内容的存储桶的 URI。Agent Assist 支持使用 * 符号进行通配符匹配。URI 应采用以下格式:

    gs://<bucket name>/<object name>
    

    例如:

    gs://mydata/conversationjsons/conv0*.json
    gs://mydatabucket/test/conv.json
    
  2. 点击创建。现在,您的新数据集显示在数据菜单页面上对话数据集标签页下的数据集列表中。

后续步骤

使用 Agent Assist 控制台,基于一个或多个对话数据集训练智能回复总结模型。