本页面提供了 Gen AI Evaluation Service 提供的基于托管评分标准的指标的完整列表,您可以在 Vertex AI SDK 中的 GenAI 客户端中使用这些指标。
如需详细了解测试驱动的评估,请参阅定义评估指标。
概览
Gen AI Evaluation Service 为测试驱动的评估框架提供了一系列基于托管评分标准的指标:
对于采用自适应评分标准的指标,大多数指标都包含针对每个提示的评分标准生成工作流和评分标准验证。如有需要,您可以单独运行这些测试。如需了解详情,请参阅运行评估。
对于具有静态评分标准的指标,系统不会生成每个提示的评分标准。如需详细了解预期输出,请参阅指标详情。
每个基于评分标准的受管理指标都有一个版本编号。默认情况下,该指标使用最新版本,但您可以根据需要固定到特定版本:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
向后兼容性
对于以指标提示模板形式提供的指标,您仍然可以通过 Vertex AI SDK 中的 GenAI 客户端以相同的方式访问逐点指标。Vertex AI SDK 中的 GenAI 客户端不支持成对指标,但您可以参阅运行评估,在同一评估中比较两个模型。
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
受管理的指标详情
本部分列出了托管指标,并提供了详细信息,例如指标类型、必需的输入和预期输出:
常规质量
最新版本 | general_quality_v1 |
类型 | 自适应评分标准 |
说明 | 一种全面的自适应评分标准指标,用于评估模型回答的总体质量。它会根据提示的内容自动生成并评估各种标准。建议大多数评估从这里开始。 |
如何在 SDK 中访问 | types.RubricMetric.GENERAL_QUALITY |
输入 |
|
输出 |
|
LLM 调用次数 | 6 次对 Gemini 2.5 Flash 的调用 |
文本质量
最新版本 | text_quality_v1 |
类型 | 自适应评分标准 |
说明 | 一种有针对性的自适应评分标准指标,专门用于评估回答的语言质量。它会评估流畅度、连贯性和语法等各个方面。 |
如何在 SDK 中访问 | types.RubricMetric.TEXT_QUALITY |
输入 |
|
输出 |
|
LLM 调用次数 | 6 次对 Gemini 2.5 Flash 的调用 |
指令遵从
最新版本 | instruction_following_v1 |
类型 | 自适应评分标准 |
说明 | 一种有针对性的自适应评分标准指标,用于衡量回答在多大程度上遵循了提示中给出的特定限制条件和指令。 |
如何在 SDK 中访问 | types.RubricMetric.INSTRUCTION_FOLLOWING |
输入 |
|
输出 |
|
LLM 调用次数 | 6 次对 Gemini 2.5 Flash 的调用 |
落地
最新版本 | grounding_v1 |
类型 | 静态评分标准 |
说明 | 一种基于分数的指标,用于检查事实性和一致性。它会验证模型的回答是否基于上下文。 |
如何在 SDK 中访问 | types.RubricMetric.GROUNDING |
输入 |
|
输出 |
0-1 ,表示被标记为 supported 或 no_rad (不需要事实归因,例如问候语、问题或免责声明)的声明相对于输入提示的比率。
说明包含句子、标签、推理和上下文摘录的分组。 |
LLM 调用次数 | 1 次对 Gemini 2.5 Flash 的调用 |
安全
最新版本 | safety_v1 |
类型 | 静态评分标准 |
说明 |
一种基于得分的指标,用于评估模型的回答是否违反了以下一项或多项政策:
|
如何在 SDK 中访问 | types.RubricMetric.SAFETY |
输入 |
|
输出 |
0 是不安全的,而 1 是安全的。
说明字段包含违规政策。 |
LLM 调用次数 | 10 次对 Gemini 2.5 Flash 的调用 |
多轮聊天常规质量
最新版本 | multi_turn_general_quality_v1 |
类型 | 自适应评分标准 |
说明 | 一种自适应评分准则指标,用于评估模型在多轮对话中的回答的总体质量。 |
如何在 SDK 中访问 | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
输入 |
|
输出 |
|
LLM 调用次数 | 6 次对 Gemini 2.5 Flash 的调用 |
多轮文本质量
最新版本 | multi_turn_text_quality_v1 |
类型 | 自适应评分标准 |
说明 | 一种自适应评分标准指标,用于评估模型在多轮对话中的回答文本质量。 |
如何在 SDK 中访问 | types.RubricMetric.TEXT_QUALITY |
输入 |
|
输出 |
|
LLM 调用次数 | 6 次对 Gemini 2.5 Flash 的调用 |
智能体最终回答匹配
最新版本 | final_response_match_v2 |
类型 | 静态评分标准 |
说明 | 一种指标,用于通过将 AI 代理的最终回答与提供的参考回答(标准答案)进行比较来评估最终回答的质量。 |
如何在 SDK 中访问 | types.RubricMetric.FINAL_RESPONSE_MATCH |
输入 |
|
输出 |
得分
|
LLM 调用次数 | 5 次对 Gemini 2.5 Flash 的调用 |
智能体最终回答参考(免费)
最新版本 | final_response_reference_free_v1 |
类型 | 自适应评分标准 |
说明 | 一种自适应评分标准指标,用于评估 AI 代理的最终答案的质量,而无需参考答案。
您需要为此指标提供评分标准,因为该指标不支持自动生成的评分标准。 |
如何在 SDK 中访问 | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
输入 |
|
输出 |
|
LLM 调用次数 | 5 次对 Gemini 2.5 Flash 的调用 |