创建对话数据集

对话数据集包含对话转录数据。这些数据用于训练智能回复模型,并向与最终用户对话的人工客服推荐文本响应。如需详细了解 Agent Assist 可以使用的数据类型,请参阅数据概览页面。如果您想在不上传自己的数据的情况下测试 API 集成或功能,则可以使用 Agent Assist 提供的对话数据

准备工作

  1. 按照 Dialogflow 设置说明在 Google Cloud Platform (GCP) 项目上启用 Dialogflow。
  2. 为您的项目启用 Data Labeling API
  3. 我们建议您在开始本教程之前先阅读 Agent Assist 的基础知识页面。
  4. (可选)如果您想在不提供自己的数据的情况下测试智能回复功能,请查看有关使用公开提供的对话数据和模型的文档。如果您选择此选项,则可以直接跳至使用公开提供的对话数据集和预训练模型创建对话配置文件
  5. 如果您要使用自己的对话数据来实现智能回复,请确保您的转录内容采用指定格式JSON 并存储在 Google Cloud Storage 存储桶中。一个对话数据集必须至少包含 30000 个对话,否则模型训练将失败。一般来说,对话数量越多,模型质量就越好。我们建议您移除所含消息少于 20 条或对话轮数(参与者说出话语的变化)少于 3 轮的所有对话。我们建议您上传至少 3 个月的对话,以确保涵盖尽可能多的使用场景。一个对话数据集中的对话数量上限为 100 万。

  6. 导航到 Agent Assist 控制台。选择您的 GCP 项目,然后点击页面最左侧的数据菜单选项:

    数据菜单会显示您的所有数据。该菜单包含两个标签页,分别为对话数据集知识库

  7. 点击对话数据集标签页,然后点击对话数据集页面右上角的 +新建按钮:

创建对话数据集

  1. 创建新的对话数据集时,系统会显示以下页面:

  2. 为新数据集输入名称说明(可选)。在对话数据字段中,输入包含对话转录内容的存储桶的 URI。Agent Assist 支持使用 * 符号进行通配符匹配。URI 应采用以下格式:

    gs://<bucket name>/<object name>
    

    例如:

    gs://mydata/conversationjsons/conv0*.json
    gs://mydatabucket/test/conv.json
    
  3. 该页面底部是一个目标下拉菜单:

    如果您确定数据集将用于训练智能回复模型,则可以立即做出此选择。否则,您可以创建数据集而不将其分配给模型类型。进行选择,然后点击创建。现在,您的新数据集显示在数据菜单页面上对话数据集标签页下的数据集列表中。

后续步骤

使用 Agent Assist 控制台,基于一个或多个对话数据集训练智能回复模型。