本页介绍了如何在运行模型评估后查看和解读模型评估结果。
查看评估结果
定义评估任务后,请运行该任务以获取评估结果,如下所示:
eval_result: EvalResult = eval_task.evaluate(
model=MODEL,
)
EvalResult
类表示具有以下属性的评估运行的结果:
metrics_table
:每个实例结果。summary_metrics
:所有请求指标的所有实例的汇总结果。metadata
:评估运行的实验名称和实验运行作业名称。
EvalResult
类的定义如下:
@dataclasses.dataclass
class EvalResult:
"""Evaluation result.
Attributes:
summary_metrics: The summary evaluation metrics for an evaluation run.
metrics_table: A table containing eval inputs, ground truth, and metric
results per row.
metadata: The metadata for the evaluation run.
"""
summary_metrics: Dict[str, float]
metrics_table: Optional["pd.DataFrame"] = None
metadata: Optional[Dict[str, str]] = None
通过使用辅助函数,评估结果可以显示在 Colab 笔记本中,如下所示:
直观呈现评估结果
您可以在雷达图或条形图中绘制摘要指标,以直观呈现和比较不同评估运行的结果。可视化有助于评估不同的模型和不同的提示模板。
在以下示例中,我们可直观地了解使用四种不同的问题模板生成的回答的四个指标(连贯性、流畅性、指令遵从度和整体文本质量)。通过雷达图和条形图,我们可以推断出提示模板 2 在所有四个指标上始终优于其他模板。这在指令遵循度和文本质量方面尤为明显,得分显著提高。根据此分析,提示模板 #2 似乎是这四个选项中最有效的选择。
了解指标结果
下表列出了 PointwiseMetric
和 PairwiseMetric
中分别包含的 metrics_table
、summary_metrics
和基于计算的指标的实例级和汇总结果的各个组成部分:
PointwiseMetric
实例级结果
列 | 说明 |
---|---|
回答 | 模型为提示生成的回答。 |
得分 | 根据标准和评分准则为回答给出的评分。评分可以是二进制数(0 和 1)、Likert 量表(1 到 5,或 -2 到 2)或浮点数(0.0 到 1.0)。 |
说明 | 评判模型给出得分的原因。我们使用思维链推理来指导判断模型解释每项判定背后的理由。显示了强制判断模型推理以提高评估准确率。 |
汇总结果
列 | 说明 |
---|---|
平均得分 | 所有实例的平均得分。 |
标准差 | 所有得分的标准差。 |
PairwiseMetric
实例级结果
列 | 说明 |
---|---|
回答 | 候选模型为提示生成的回答。 |
baseline_model_response | 基准模型为提示生成的回答。 |
pairwise_choice | 回答更好的模型。可能的值包括 CANDIDATE、BASELINE 或 TIE。 |
说明 | 判断模型做出该选择的原因。 |
汇总结果
列 | 说明 |
---|---|
candidate_model_win_rate | 判断模型确定候选模型提供更好回答的时间与总回答次数的比率。范围介于 0 到 1 之间。 |
baseline_model_win_rate | 判断模型确定基准模型提供更好回答的时间与总回答次数的比率。范围介于 0 到 1 之间。 |
基于计算的指标
实例级结果
列 | 说明 |
---|---|
回答 | 正在评估的模型的回答。 |
引用 | 参考回答。 |
得分 | 系统会针对每对回答和参考计算得分。 |
汇总结果
列 | 说明 |
---|---|
平均得分 | 所有实例的平均得分。 |
标准差 | 所有得分的标准差。 |
示例
本部分中的示例演示了如何查看和理解评估结果。
示例 1
在第一个示例中,我们将评估 TEXT_QUALITY
的一个逐点评估实例。TEXT_QUALITY
指标的逐点评估得分为 4(从等级 1 到 5),这意味着回答良好。此外,评估结果中的解释说明了判断模型认为该预测应该得 4 分(而不是更高或更低的得分)的原因。
数据集
prompt
:“以 5 岁孩子可以理解的方式总结以下文本:社交媒体平台因内容审核政策而遭到强烈反对\n一家著名的社交媒体平台发现自己卷入了争议,因为用户和内容创作者对其内容审核政策表示不满。有关审查偏见、执行不一致和压制某些观点的指控引发了用户的愤怒,他们声称该平台正在扼杀言论自由。另一方面,该平台声明,其政策旨在维护安全、包容的在线环境。这一争议引发了更广泛的问题,即社交媒体在塑造公共话语方面的作用以及平台在挑选在线内容方面的责任。”response
:“人们对某个网站感到不满,因为他们认为网站发布的内容不公平。有人说,网站阻止他们说出他们想说的内容。但该网站表示,它会努力确保所有人的安全。这让人们想知道网站是否应该控制人们在网上的言论。”
结果
score
:4explanation
:回答中的摘要遵循指令,以五岁的孩子可以理解的方式汇总上下文。它基于上下文,并在摘要中提供重要细节。但是,回答中使用的语言有点冗长。
示例 2
第二个示例是对 PAIRWISE_QUESTION_ANSWERING_QUALITY
进行的配对比较评估。pairwise_choice
结果显示,与基准回答“法国是一个国家。”相比,判断模型更喜欢候选回答“法国是位于西欧的国家。”来回答提示中的问题。与逐点结果类似,还会提供了说明,解释候选回答优于基准回答的原因(在这种情况下,候选回答更有用)。
数据集
prompt
:“根据以下段落,您能回答法国在哪里吗?法国是位于西欧的国家。它与比利时、卢森堡、德国、瑞士、意大利、摩纳哥、西班牙和安道尔接壤。法国的海岸线沿英吉利海峡、北海、大西洋和地中海沿岸延伸。法国以其丰富的历史、埃菲尔铁塔等标志性地标和美食而闻名,是欧洲和全球的重要文化和经济大国。”response
:“法国是位于西欧的国家。”,baseline_model_response
:“法国是一个国家。”
结果
pairwise_choice
: CANDIDATE,explanation
:BASELINE 回答已落地,但未完全回答问题。但是,候选回答是正确的,提供了有关法国地理位置的实用详细信息。