基于评分标准的受管指标的详细信息

本页面提供了 Gen AI Evaluation Service 提供的基于托管评分标准的指标的完整列表,您可以在 Vertex AI SDK 中的 GenAI 客户端中使用这些指标。

如需详细了解测试驱动的评估,请参阅定义评估指标

概览

Gen AI Evaluation Service 为测试驱动的评估框架提供了一系列基于托管评分标准的指标:

  • 对于采用自适应评分标准的指标,大多数指标都包含针对每个提示的评分标准生成工作流和评分标准验证。如有需要,您可以单独运行这些测试。如需了解详情,请参阅运行评估

  • 对于具有静态评分标准的指标,系统不会生成每个提示的评分标准。如需详细了解预期输出,请参阅指标详情

每个基于评分标准的受管理指标都有一个版本编号。默认情况下,该指标使用最新版本,但您可以根据需要固定到特定版本:

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

向后兼容性

对于以指标提示模板形式提供的指标,您仍然可以通过 Vertex AI SDK 中的 GenAI 客户端以相同的方式访问逐点指标。Vertex AI SDK 中的 GenAI 客户端不支持成对指标,但您可以参阅运行评估,在同一评估中比较两个模型。

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

受管理的指标详情

本部分列出了托管指标,并提供了详细信息,例如指标类型、必需的输入和预期输出:

常规质量

最新版本 general_quality_v1
类型 自适应评分标准
说明 一种全面的自适应评分标准指标,用于评估模型回答的总体质量。它会根据提示的内容自动生成并评估各种标准。建议大多数评估从这里开始。
如何在 SDK 中访问 types.RubricMetric.GENERAL_QUALITY
输入
  • prompt
  • response
  • (可选)rubric_groups
如果您已生成评分标准,可以直接提供这些标准以供评估。
输出
  • score
  • rubrics 和相应的 verdicts
该得分表示根据评分标准得出的回答通过率。
LLM 调用次数 6 次对 Gemini 2.5 Flash 的调用

文本质量

最新版本 text_quality_v1
类型 自适应评分标准
说明 一种有针对性的自适应评分标准指标,专门用于评估回答的语言质量。它会评估流畅度、连贯性和语法等各个方面。
如何在 SDK 中访问 types.RubricMetric.TEXT_QUALITY
输入
  • prompt
  • response
  • (可选)rubric_groups
如果您已生成评分标准,可以直接提供这些评分标准以供评估。
输出
  • score
  • rubrics 和相应的 verdicts
该得分表示根据评分标准得出的回答通过率。
LLM 调用次数 6 次对 Gemini 2.5 Flash 的调用

指令遵从

最新版本 instruction_following_v1
类型 自适应评分标准
说明 一种有针对性的自适应评分标准指标,用于衡量回答在多大程度上遵循了提示中给出的特定限制条件和指令。
如何在 SDK 中访问 types.RubricMetric.INSTRUCTION_FOLLOWING
输入
  • prompt
  • response
  • (可选)rubric_groups
如果您已生成评分标准,可以直接提供这些评分标准以供评估。
输出
  • score(通过率)
  • rubrics 和相应的 verdicts
该得分表示根据评分标准得出的回答通过率。
LLM 调用次数 6 次对 Gemini 2.5 Flash 的调用

落地

最新版本 grounding_v1
类型 静态评分标准
说明 一种基于分数的指标,用于检查事实性和一致性。它会验证模型的回答是否基于上下文。
如何在 SDK 中访问 types.RubricMetric.GROUNDING
输入
  • prompt
  • response
  • context
输出
  • score
  • explanation
得分范围为 0-1,表示被标记为 supportedno_rad(不需要事实归因,例如问候语、问题或免责声明)的声明相对于输入提示的比率。
说明包含句子、标签、推理和上下文摘录的分组。
LLM 调用次数 1 次对 Gemini 2.5 Flash 的调用

安全

最新版本 safety_v1
类型 静态评分标准
说明 一种基于得分的指标,用于评估模型的回答是否违反了以下一项或多项政策:
  • PII 和受众特征数据
  • 仇恨言论
  • 危险内容
  • 骚扰内容
  • 露骨色情内容
如何在 SDK 中访问 types.RubricMetric.SAFETY
输入
  • prompt
  • response
输出
  • score
  • explanation
对于得分,0 是不安全的,而 1 是安全的。
说明字段包含违规政策。
LLM 调用次数 10 次对 Gemini 2.5 Flash 的调用

多轮聊天常规质量

最新版本 multi_turn_general_quality_v1
类型 自适应评分标准
说明 一种自适应评分准则指标,用于评估模型在多轮对话中的回答的总体质量。
如何在 SDK 中访问 types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
输入
  • prompt 进行多轮对话
  • response
  • (可选)rubric_groups
如果您已生成评分标准,可以直接提供这些评分标准以供评估。
输出
  • score
  • 评分标准和相应判定
该得分表示根据评分标准得出的回答通过率。
LLM 调用次数 6 次对 Gemini 2.5 Flash 的调用

多轮文本质量

最新版本 multi_turn_text_quality_v1
类型 自适应评分标准
说明 一种自适应评分标准指标,用于评估模型在多轮对话中的回答文本质量。
如何在 SDK 中访问 types.RubricMetric.TEXT_QUALITY
输入
  • prompt 进行多轮对话
  • response
  • (可选)rubric_groups
如果您已生成评分标准,可以直接提供这些评分标准以供评估。
输出
  • score
  • rubrics 和相应的 verdicts
该得分表示根据评分标准得出的回答通过率。
LLM 调用次数 6 次对 Gemini 2.5 Flash 的调用

智能体最终回答匹配

最新版本 final_response_match_v2
类型 静态评分标准
说明 一种指标,用于通过将 AI 代理的最终回答与提供的参考回答(标准答案)进行比较来评估最终回答的质量。
如何在 SDK 中访问 types.RubricMetric.FINAL_RESPONSE_MATCH
输入
  • prompt
  • response
  • reference
输出 得分
  • 1:与参考答案匹配的有效回答。
  • 0:与参考答案不符的无效回答。
说明
LLM 调用次数 5 次对 Gemini 2.5 Flash 的调用

智能体最终回答参考(免费)

最新版本 final_response_reference_free_v1
类型 自适应评分标准
说明 一种自适应评分标准指标,用于评估 AI 代理的最终答案的质量,而无需参考答案。
您需要为此指标提供评分标准,因为该指标不支持自动生成的评分标准。
如何在 SDK 中访问 types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
输入
  • prompt
  • response
  • rubric_groups
输出
  • score
  • rubrics 和相应的 verdicts
该得分表示根据评分标准得出的回答通过率。
LLM 调用次数 5 次对 Gemini 2.5 Flash 的调用

后续步骤