本頁面提供 Gen AI Evaluation Service 提供的全套受管理評量表式指標清單,您可以在 Vertex AI SDK 的 Gen AI 用戶端中使用這些指標。
如要進一步瞭解以測試為導向的評估方式,請參閱「定義評估指標」。
總覽
Gen AI Evaluation Service 提供一系列以評量表為準的受管理指標,適用於測試導向的評估架構:
對於採用自適性評量標準的指標,大多數指標都包含每個提示的評量標準生成工作流程和評量標準驗證。如有需要,您可以分別執行這些測試。詳情請參閱「執行評估」。
如果指標使用靜態評分標準,系統不會為每個提示生成評分標準。如要瞭解預期輸出內容的詳細資料,請參閱「指標詳細資料」。
每個代管的評量表指標都有版本編號。指標預設會使用最新版本,但您也可以視需要固定使用特定版本:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
回溯相容性
如果是以指標提示範本形式提供的指標,您還是可以透過相同方法,在 Vertex AI SDK 的 GenAI 用戶端存取逐點指標。Vertex AI SDK 中的 GenAI 用戶端不支援成對指標,但請參閱「執行評估」,比較同一項評估中的兩個模型。
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
受管理指標的詳細資料
本節列出代管指標,並提供詳細資料,例如指標類型、必要輸入內容和預期輸出內容:
一般品質
最新版本 | general_quality_v1 |
類型 | 自動調整式評量表 |
說明 | 這項指標會根據全面的適應性評量表,評估模型回覆的整體品質。系統會根據提示內容自動生成並評估各種條件。建議您從這裡開始進行大多數評估。 |
如何在 SDK 中存取 | types.RubricMetric.GENERAL_QUALITY |
輸入內容 |
|
輸出內容 |
|
LLM 呼叫次數 | 6 次呼叫 Gemini 2.5 Flash |
內容品質
最新版本 | text_quality_v1 |
類型 | 自動調整式評量表 |
說明 | 這項指標會根據目標適應性評量表,評估回覆的語言品質。並評估流暢度、連貫性和文法等層面。 |
如何在 SDK 中存取 | types.RubricMetric.TEXT_QUALITY |
輸入內容 |
|
輸出內容 |
|
LLM 呼叫次數 | 6 次呼叫 Gemini 2.5 Flash |
指令遵循情形
最新版本 | instruction_following_v1 |
類型 | 自動調整式評量表 |
說明 | 這項指標會評估回覆內容是否符合提示中的特定限制和指示。 |
如何在 SDK 中存取 | types.RubricMetric.INSTRUCTION_FOLLOWING |
輸入內容 |
|
輸出內容 |
|
LLM 呼叫次數 | 6 次呼叫 Gemini 2.5 Flash |
連結
最新版本 | grounding_v1 |
類型 | 靜態評分量表 |
說明 | 這項指標會根據分數檢查事實和一致性。這項功能會驗證模型的回覆是否以情境為依據。 |
如何在 SDK 中存取 | types.RubricMetric.GROUNDING |
輸入內容 |
|
輸出內容 |
0-1 ,代表標示為 supported 或 no_rad (不需事實出處,例如問候語、問題或免責事項) 的聲明在輸入提示中的比率。
說明包含句子、標籤、推理和摘錄自內容的片段。 |
LLM 呼叫次數 | 1 次呼叫 Gemini 2.5 Flash |
安全性
最新版本 | safety_v1 |
類型 | 靜態評分量表 |
說明 |
這項指標會根據分數評估模型回覆是否違反下列一或多項政策:
|
如何在 SDK 中存取 | types.RubricMetric.SAFETY |
輸入內容 |
|
輸出內容 |
0 不安全,1 則安全。
說明欄位會列出違反的政策。 |
LLM 呼叫次數 | 10 次呼叫 Gemini 2.5 Flash |
多輪對話一般品質
最新版本 | multi_turn_general_quality_v1 |
類型 | 自動調整式評量表 |
說明 | 這項指標會根據多輪對話情境,評估模型回覆的整體品質。 |
如何在 SDK 中存取 | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
輸入內容 |
|
輸出內容 |
|
LLM 呼叫次數 | 6 次呼叫 Gemini 2.5 Flash |
多輪對話文字品質
最新版本 | multi_turn_text_quality_v1 |
類型 | 自動調整式評量表 |
說明 | 這項指標會根據多輪對話情境,評估模型回覆的文字品質。 |
如何在 SDK 中存取 | types.RubricMetric.TEXT_QUALITY |
輸入內容 |
|
輸出內容 |
|
LLM 呼叫次數 | 6 次呼叫 Gemini 2.5 Flash |
服務專員最終回覆比對
最新版本 | final_response_match_v2 |
類型 | 靜態評分量表 |
說明 | 這項指標會比較 AI 服務專員的最終回覆與提供的參考答案 (實際資料),評估最終回覆的品質。 |
如何在 SDK 中存取 | types.RubricMetric.FINAL_RESPONSE_MATCH |
輸入內容 |
|
輸出內容 |
分數
|
LLM 呼叫次數 | 5 次呼叫 Gemini 2.5 Flash |
服務專員最終回覆參考資料 (免費)
最新版本 | final_response_reference_free_v1 |
類型 | 自動調整式評量表 |
說明 | 自適性評量表指標:評估 AI 代理程式最終答案的品質,無須參考答案。
這項指標不支援自動產生的評量表,因此您必須提供評量表。 |
如何在 SDK 中存取 | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
輸入內容 |
|
輸出內容 |
|
LLM 呼叫次數 | 5 次呼叫 Gemini 2.5 Flash |