マネージドルーブリックベースの指標の詳細

このページでは、Gen AI Evaluation Service が提供する管理対象のルーブリックベースの指標の完全なリストを示します。この指標は、Vertex AI SDK の GenAI クライアントで使用できます。

テスト駆動型の評価の詳細については、評価指標を定義するをご覧ください。

概要

Gen AI Evaluation Service には、テスト駆動型の評価フレームワーク用の管理されたルーブリックベースの指標のリストが用意されています。

適応型ルーブリックを使用する指標のほとんどには、各プロンプトのルーブリック生成とルーブリック検証の両方のワークフローが含まれています。必要に応じて、個別に実行できます。詳細については、評価を実行するをご覧ください。
静的ルーブリックを含む指標の場合、プロンプトごとのルーブリックは生成されません。目的とされる出力の詳細については、指標の詳細をご覧ください。

マネージドルーブリックベースの指標には、バージョン番号があります。指標ではデフォルトで最新バージョンが使用されますが、必要に応じて特定のバージョンに固定できます。

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

下位互換性

指標プロンプトテンプレートとして提供される指標については、同じ方法で Vertex AI SDK の GenAI クライアントからポイントワイズ指標にアクセスできます。ペアワイズ指標は Vertex AI SDK の GenAI クライアントではサポートされていませんが、同じ評価で 2 つのモデルを比較するには、評価を実行するをご覧ください。

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

マネージド指標の詳細

このセクションでは、マネージド指標とそのタイプ、必要な入力、期待される出力などの詳細を示します。

全般的な品質
テキストの品質
指示実行
グラウンディング
安全性
マルチターンの全般的な品質
マルチターンテキストの品質
エージェントの最終レスポンスの一致
エージェントの最終レスポンスの参照（無料）

全般的な品質

最新バージョン	`general_quality_v1`
タイプ	適応型ルーブリック
説明	モデルのレスポンスの全体的な品質を評価する包括的な適応型ルーブリック指標。プロンプトのコンテンツに基づいて、幅広い基準を自動的に生成して評価します。ほとんどの評価で、この方法をおすすめします。
SDK でアクセスする方法	`types.RubricMetric.GENERAL_QUALITY`
入力	`prompt` `response` （省略可）`rubric_groups` ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力	`score` `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 6 回の呼び出し

テキストの品質

最新バージョン	`text_quality_v1`
タイプ	適応型ルーブリック
説明	レスポンスの言語品質を具体的に評価する、対象を絞った適応型ルーブリック指標。流暢さ、一貫性、文法などの側面を評価します。
SDK でアクセスする方法	`types.RubricMetric.TEXT_QUALITY`
入力	`prompt` `response` （省略可）`rubric_groups` ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力	`score` `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 6 回の呼び出し

指示実行

最新バージョン	`instruction_following_v1`
タイプ	適応型ルーブリック
説明	プロンプトで指定された特定の制約と指示にレスポンスがどの程度準拠しているかを測定する、ターゲット設定された適応型ルーブリック指標。
SDK でアクセスする方法	`types.RubricMetric.INSTRUCTION_FOLLOWING`
入力	`prompt` `response` （省略可）`rubric_groups` ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力	`score`（合格率） `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 6 回の呼び出し

グラウンディング

最新バージョン	`grounding_v1`
タイプ	静的ルーブリック
説明	事実性と整合性をチェックするスコアベースの指標。モデルのレスポンスがコンテキストに基づいてグラウンディングされていることを確認します。
SDK でアクセスする方法	`types.RubricMetric.GROUNDING`
入力	`prompt` `response` `context`
出力	`score` `explanation` スコアの範囲は `0-1` で、入力プロンプトに対する `supported` または `no_rad`（挨拶、質問、免責事項など、事実に基づく帰属を必要としない）としてラベル付けされたクレームの割合を表します。説明には、文、ラベル、理由、コンテキストからの抜粋のグループが含まれます。
LLM 呼び出しの数	Gemini 2.5 Flash への 1 回の呼び出し

安全性

最新バージョン	`safety_v1`
タイプ	静的ルーブリック
説明	モデルのレスポンスが次の 1 つ以上のポリシーに違反しているかどうかを評価するスコアベースの指標。 PII とユーザー層データヘイトスピーチ危険なコンテンツハラスメント性的に露骨な表現
SDK でアクセスする方法	`types.RubricMetric.SAFETY`
入力	`prompt` `response`
出力	`score` `explanation` スコアの場合、`0` は安全ではなく、`1` は安全です。説明フィールドには、違反したポリシーが含まれます。
LLM 呼び出しの数	Gemini 2.5 Flash への 10 回の呼び出し

マルチターンの全般的な品質

最新バージョン	`multi_turn_general_quality_v1`
タイプ	適応型ルーブリック
説明	マルチターンの会話のコンテキスト内でモデルのレスポンスの全体的な品質を評価する適応型ルーブリック指標。
SDK でアクセスする方法	`types.RubricMetric.MULTI_TURN_GENERAL_QUALITY`
入力	マルチターンの会話での `prompt` `response` （省略可）`rubric_groups` ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力	`score` ルーブリックと対応する判定スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 6 回の呼び出し

マルチターンテキストの品質

最新バージョン	`multi_turn_text_quality_v1`
タイプ	適応型ルーブリック
説明	マルチターンの会話のコンテキスト内でモデルのレスポンスのテキスト品質を評価する適応型ルーブリック指標。
SDK でアクセスする方法	`types.RubricMetric.TEXT_QUALITY`
入力	マルチターンの会話での `prompt` `response` （省略可）`rubric_groups` ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力	`score` `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 6 回の呼び出し

エージェントの最終レスポンスの一致

最新バージョン	`final_response_match_v2`
タイプ	静的ルーブリック
説明	提供された参照レスポンス（グラウンドトゥルース）と比較して、AI エージェントの最終レスポンスの品質を評価する指標。
SDK でアクセスする方法	`types.RubricMetric.FINAL_RESPONSE_MATCH`
入力	`prompt` `response` `reference`
出力	スコア 1: 参照と一致する有効なレスポンス。 0: 参照と一致しない無効なレスポンス。説明
LLM 呼び出しの数	Gemini 2.5 Flash への 5 回の呼び出し

エージェントの最終レスポンスの参照（無料）

最新バージョン	`final_response_reference_free_v1`
タイプ	適応型ルーブリック
説明	参照レスポンスを必要とせずに、AI エージェントの最終レスポンスの品質を評価する適応型ルーブリック指標。この指標では自動生成されたルーブリックはサポートされていないため、ルーブリックを指定する必要があります。
SDK でアクセスする方法	`types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE`
入力	`prompt` `response` `rubric_groups`
出力	`score` `rubrics` と対応する `verdicts` スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数	Gemini 2.5 Flash への 5 回の呼び出し

次のステップ

評価データセットを準備する。