管理対象のルーブリック ベースの指標の詳細

このページでは、Gen AI Evaluation Service が提供する管理対象のルーブリックベースの指標の完全なリストを示します。この指標は、Vertex AI SDK の GenAI クライアントで使用できます。

テスト駆動型評価の詳細については、評価指標を定義するをご覧ください。

概要

Gen AI Evaluation Service には、テスト駆動型評価フレームワーク用の管理されたルーブリックベースの指標のリストが用意されています。

  • 適応型ルーブリックを使用する指標のほとんどには、各プロンプトのルーブリック生成とルーブリック検証の両方のワークフローが含まれています。必要に応じて、個別に実行できます。詳細については、評価を実行するをご覧ください。

  • 静的ルーブリックを含む指標の場合、プロンプトごとのルーブリックは生成されません。出力の目的の詳細については、指標の詳細をご覧ください。

管理対象のルーブリック ベースの指標には、バージョン番号があります。指標ではデフォルトで最新バージョンが使用されますが、必要に応じて特定のバージョンに固定できます。

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

下位互換性

指標プロンプト テンプレートとして提供される指標については、同じ方法で Vertex AI SDK の GenAI クライアントからポイントワイズ指標にアクセスできます。ペアワイズ指標は Vertex AI SDK の GenAI クライアントではサポートされていませんが、同じ評価で 2 つのモデルを比較するには、評価を実行するをご覧ください。

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

マネージド指標の詳細

このセクションでは、マネージド指標とそのタイプ、必要な入力、期待される出力などの詳細を示します。

全般的な品質

最新バージョン general_quality_v1
適応型ルーブリック
説明 モデルのレスポンスの全体的な品質を評価する包括的な適応型ルーブリック指標。プロンプトのコンテンツに基づいて、幅広い基準を自動的に生成して評価します。ほとんどの評価で、この方法をおすすめします。
SDK でアクセスする方法 types.RubricMetric.GENERAL_QUALITY
入力
  • prompt
  • response
  • (省略可)rubric_groups
ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力
  • score
  • rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数 Gemini 2.5 Flash への 6 回の呼び出し

テキストの品質

最新バージョン text_quality_v1
適応型ルーブリック
説明 回答の言語品質を具体的に評価する、対象を絞った適応型ルーブリック指標。流暢さ、一貫性、文法などの側面を評価します。
SDK でアクセスする方法 types.RubricMetric.TEXT_QUALITY
入力
  • prompt
  • response
  • (省略可)rubric_groups
ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力
  • score
  • rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数 Gemini 2.5 Flash への 6 回の呼び出し

指示実行

最新バージョン instruction_following_v1
適応型ルーブリック
説明 プロンプトで指定された特定の制約と指示にレスポンスがどの程度準拠しているかを測定する、ターゲット設定されたアダプティブ ルーブリック指標。
SDK でアクセスする方法 types.RubricMetric.INSTRUCTION_FOLLOWING
入力
  • prompt
  • response
  • (省略可)rubric_groups
ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力
  • score(合格率)
  • rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数 Gemini 2.5 Flash への 6 回の呼び出し

グラウンディング

最新バージョン grounding_v1
静的ルーブリック
説明 事実性と一貫性をチェックするスコアベースの指標。モデルの回答がコンテキストに基づいてグラウンディングされていることを確認します。
SDK でアクセスする方法 types.RubricMetric.GROUNDING
入力
  • prompt
  • response
  • context
出力
  • score
  • explanation
スコアの範囲は 0-1 で、入力プロンプトに対する supported または no_rad(事実に基づく帰属を必要としない、挨拶、質問、免責事項など)とラベル付けされたクレームの割合を表します。
説明には、文、ラベル、理由、コンテキストからの抜粋のグループが含まれます。
LLM 呼び出しの数 Gemini 2.5 Flash への 1 回の呼び出し

安全性

最新バージョン safety_v1
静的ルーブリック
説明 モデルのレスポンスが次の 1 つ以上のポリシーに違反しているかどうかを評価するスコアベースの指標。
  • PII とユーザー属性データ
  • ヘイトスピーチ
  • 危険なコンテンツ
  • 嫌がらせ
  • 性的に露骨な表現
SDK でアクセスする方法 types.RubricMetric.SAFETY
入力
  • prompt
  • response
出力
  • score
  • explanation
スコアの場合、0 は安全ではなく、1 は安全です。
説明フィールドには、違反したポリシーが含まれます。
LLM 呼び出しの数 Gemini 2.5 Flash への 10 回の呼び出し

マルチターンの全般的な品質

最新バージョン multi_turn_general_quality_v1
適応型ルーブリック
説明 マルチターンのダイアログのコンテキスト内でモデルのレスポンスの全体的な品質を評価する適応型ルーブリック指標。
SDK でアクセスする方法 types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
入力
  • prompt を使用してマルチターンの会話を行う
  • response
  • (省略可)rubric_groups
ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力
  • score
  • ルーブリックと対応する判定
スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数 Gemini 2.5 Flash への 6 回の呼び出し

マルチターン テキストの品質

最新バージョン multi_turn_text_quality_v1
適応型ルーブリック
説明 マルチターンのダイアログのコンテキスト内でモデルのレスポンスのテキスト品質を評価する適応型ルーブリック指標。
SDK でアクセスする方法 types.RubricMetric.TEXT_QUALITY
入力
  • prompt を使用してマルチターンの会話を行う
  • response
  • (省略可)rubric_groups
ルーブリックがすでに生成されている場合は、評価用に直接提供できます。
出力
  • score
  • rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数 Gemini 2.5 Flash への 6 回の呼び出し

エージェントの最終回答の一致

最新バージョン final_response_match_v2
静的ルーブリック
説明 提供された参照回答(グラウンド トゥルース)と比較して、AI エージェントの最終回答の品質を評価する指標。
SDK でアクセスする方法 types.RubricMetric.FINAL_RESPONSE_MATCH
入力
  • prompt
  • response
  • reference
出力 スコア
  • 1: 参照と一致する有効なレスポンス。
  • 0: リファレンスと一致しない無効なレスポンス。
説明
LLM 呼び出しの数 Gemini 2.5 Flash への 5 回の呼び出し

エージェントの最終回答の参照(無料)

最新バージョン final_response_reference_free_v1
適応型ルーブリック
説明 参照回答を必要とせずに、AI エージェントの最終回答の品質を評価する適応型ルーブリック指標。
この指標では自動生成されたルーブリックはサポートされていないため、ルーブリックを指定する必要があります。
SDK でアクセスする方法 types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
入力
  • prompt
  • response
  • rubric_groups
出力
  • score
  • rubrics と対応する verdicts
スコアは、ルーブリックに基づくレスポンスの合格率を表します。
LLM 呼び出しの数 Gemini 2.5 Flash への 5 回の呼び出し

次のステップ