摘要自动评估指标

总结自动评估(自动评估)会根据准确性、完整性和一致性来评估 AI 生成的总结的质量。

准确率

准确性用于衡量摘要与对话转录的实际细节的贴合程度。对于每个摘要,自动评估功能会确定一个正确百分比,并提供相应的理由。准确度得分较低意味着摘要中存在事实性问题。

准确率结果如下所示:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • 上例中的每个 point 都是摘要的分解部分。二元形参 is_accurate 显示准确率评估结果。accuracy 参数提供正当理由。

遵循情况

总结自动评估会针对提供的总结提出一组问题。自动评估功能会使用这些问题和对话记录来评估摘要是否符合每条指令。不过,总结自动评估功能依赖于 Gemini,而 Gemini 可能无法准确验证语法指令。因此,总结自动评估可能无法准确评估总结是否遵循了语法说明。

如果依从性得分较低,则表示摘要未能遵循摘要部分定义中提供的说明。只有使用自定义部分的摘要才能生成依从性得分。

对于一致性,总结自动评估可识别以下两种类型的总结任务:

  • 分类摘要:提供说明中定义的分类值。例如,指令要求回答“晴天”或“阴天”。自动评估会检查提供的天气预报摘要是否仅包含,而没有描述性文字。
  • 非类别总结:提供自由形式文本。自动评估会检查非类别摘要是否遵循任务说明中定义的说明。

依从性结果如下所示:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • 每个问题都源自提供的摘要部分定义。二元形参 is_addressed 显示依从性评估结果。reasoning 参数提供正当理由。

  • 如果任何问题与您的目标不一致,则表示相应目标的摘要部分定义不明确。您可以了解问题并改进版块定义。

完整性

总结自动评估功能会应用一组评分标准,根据总结部分定义中的说明来评估 AI 生成的总结的完整性。完整性得分较低表示摘要未能包含转写中的重要信息。

完整性结果如下所示:

{
  "rubrics": [
    {
      "question": "Does the summary identify that the customer initially considered cancelling their subscription?",
      "is_addressed": "True"
    },
    {
      "question": "Does the summary identify that the customer inquired about a previously issued credit?",
      "is_addressed": "False"
    },
    {
      "question": "Does the summary mention the specific amount of the credit ($20)?",
      "is_addressed": "False"
    }
  ]
}
  • 每个问题都源自所提供的任务说明和转写内容。二元形参 is_addressed 显示评估结果。

  • 如果任何问题与您的目标不符,则说明您的摘要部分定义不明确。了解问题并改进版块定义。