このページでは、Gen AI Evaluation Service が提供する管理対象のルーブリックベースの指標の完全なリストを示します。この指標は、Vertex AI SDK の GenAI クライアントで使用できます。
テスト駆動型評価の詳細については、評価指標を定義するをご覧ください。
概要
Gen AI Evaluation Service には、テスト駆動型評価フレームワーク用の管理されたルーブリックベースの指標のリストが用意されています。
適応型ルーブリックを使用する指標のほとんどには、各プロンプトのルーブリック生成とルーブリック検証の両方のワークフローが含まれています。必要に応じて、個別に実行できます。詳細については、評価を実行するをご覧ください。
静的ルーブリックを含む指標の場合、プロンプトごとのルーブリックは生成されません。出力の目的の詳細については、指標の詳細をご覧ください。
管理対象のルーブリック ベースの指標には、バージョン番号があります。指標ではデフォルトで最新バージョンが使用されますが、必要に応じて特定のバージョンに固定できます。
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
下位互換性
指標プロンプト テンプレートとして提供される指標については、同じ方法で Vertex AI SDK の GenAI クライアントからポイントワイズ指標にアクセスできます。ペアワイズ指標は Vertex AI SDK の GenAI クライアントではサポートされていませんが、同じ評価で 2 つのモデルを比較するには、評価を実行するをご覧ください。
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
マネージド指標の詳細
このセクションでは、マネージド指標とそのタイプ、必要な入力、期待される出力などの詳細を示します。
- 一般的な品質
- テキストの品質
- Instruction following(指示の実行)
- グラウンディング
- 安全性
- マルチターンの一般的な品質
- マルチターン テキストの品質
- Agent final response match(エージェントの最終回答の一致)
- エージェントの最終回答のリファレンス(無料)
全般的な品質
最新バージョン | general_quality_v1 |
型 | 適応型ルーブリック |
説明 | モデルのレスポンスの全体的な品質を評価する包括的な適応型ルーブリック指標。プロンプトのコンテンツに基づいて、幅広い基準を自動的に生成して評価します。ほとんどの評価で、この方法をおすすめします。 |
SDK でアクセスする方法 | types.RubricMetric.GENERAL_QUALITY |
入力 |
|
出力 |
|
LLM 呼び出しの数 | Gemini 2.5 Flash への 6 回の呼び出し |
テキストの品質
最新バージョン | text_quality_v1 |
型 | 適応型ルーブリック |
説明 | 回答の言語品質を具体的に評価する、対象を絞った適応型ルーブリック指標。流暢さ、一貫性、文法などの側面を評価します。 |
SDK でアクセスする方法 | types.RubricMetric.TEXT_QUALITY |
入力 |
|
出力 |
|
LLM 呼び出しの数 | Gemini 2.5 Flash への 6 回の呼び出し |
指示実行
最新バージョン | instruction_following_v1 |
型 | 適応型ルーブリック |
説明 | プロンプトで指定された特定の制約と指示にレスポンスがどの程度準拠しているかを測定する、ターゲット設定されたアダプティブ ルーブリック指標。 |
SDK でアクセスする方法 | types.RubricMetric.INSTRUCTION_FOLLOWING |
入力 |
|
出力 |
|
LLM 呼び出しの数 | Gemini 2.5 Flash への 6 回の呼び出し |
グラウンディング
最新バージョン | grounding_v1 |
型 | 静的ルーブリック |
説明 | 事実性と一貫性をチェックするスコアベースの指標。モデルの回答がコンテキストに基づいてグラウンディングされていることを確認します。 |
SDK でアクセスする方法 | types.RubricMetric.GROUNDING |
入力 |
|
出力 |
0-1 で、入力プロンプトに対する supported または no_rad (事実に基づく帰属を必要としない、挨拶、質問、免責事項など)とラベル付けされたクレームの割合を表します。説明には、文、ラベル、理由、コンテキストからの抜粋のグループが含まれます。 |
LLM 呼び出しの数 | Gemini 2.5 Flash への 1 回の呼び出し |
安全性
最新バージョン | safety_v1 |
型 | 静的ルーブリック |
説明 |
モデルのレスポンスが次の 1 つ以上のポリシーに違反しているかどうかを評価するスコアベースの指標。
|
SDK でアクセスする方法 | types.RubricMetric.SAFETY |
入力 |
|
出力 |
0 は安全ではなく、1 は安全です。説明フィールドには、違反したポリシーが含まれます。 |
LLM 呼び出しの数 | Gemini 2.5 Flash への 10 回の呼び出し |
マルチターンの全般的な品質
最新バージョン | multi_turn_general_quality_v1 |
型 | 適応型ルーブリック |
説明 | マルチターンのダイアログのコンテキスト内でモデルのレスポンスの全体的な品質を評価する適応型ルーブリック指標。 |
SDK でアクセスする方法 | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
入力 |
|
出力 |
|
LLM 呼び出しの数 | Gemini 2.5 Flash への 6 回の呼び出し |
マルチターン テキストの品質
最新バージョン | multi_turn_text_quality_v1 |
型 | 適応型ルーブリック |
説明 | マルチターンのダイアログのコンテキスト内でモデルのレスポンスのテキスト品質を評価する適応型ルーブリック指標。 |
SDK でアクセスする方法 | types.RubricMetric.TEXT_QUALITY |
入力 |
|
出力 |
|
LLM 呼び出しの数 | Gemini 2.5 Flash への 6 回の呼び出し |
エージェントの最終回答の一致
最新バージョン | final_response_match_v2 |
型 | 静的ルーブリック |
説明 | 提供された参照回答(グラウンド トゥルース)と比較して、AI エージェントの最終回答の品質を評価する指標。 |
SDK でアクセスする方法 | types.RubricMetric.FINAL_RESPONSE_MATCH |
入力 |
|
出力 |
スコア
|
LLM 呼び出しの数 | Gemini 2.5 Flash への 5 回の呼び出し |
エージェントの最終回答の参照(無料)
最新バージョン | final_response_reference_free_v1 |
型 | 適応型ルーブリック |
説明 | 参照回答を必要とせずに、AI エージェントの最終回答の品質を評価する適応型ルーブリック指標。 この指標では自動生成されたルーブリックはサポートされていないため、ルーブリックを指定する必要があります。 |
SDK でアクセスする方法 | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
入力 |
|
出力 |
|
LLM 呼び出しの数 | Gemini 2.5 Flash への 5 回の呼び出し |