Gen AI Evaluation Service を使用すると、独自の基準に基づいて、大規模言語モデル(LLM)を複数の指標で評価できます。推論時の入力、LLM レスポンス、その他のパラメータを指定すると、Gen AI Evaluation Service は評価タスクに固有の指標を返します。
指標には、PointwiseMetric や PairwiseMetric などのモデルベースの指標と、rouge、bleu、ツールの関数呼び出しの指標など、メモリ内で計算される指標が含まれます。PointwiseMetric と PairwiseMetric は、独自の基準でカスタマイズできる汎用モデルベースの指標です。このサービスは、モデルから予測結果を直接入力として取得するため、Vertex AI でサポートされているすべてのモデルに対して推論とその後の評価の両方を実行できます。
モデルの評価の詳細については、Gen AI Evaluation Service の概要をご覧ください。
制限事項
評価サービスには次の制限があります。
- 評価サービスでは、最初の呼び出しで伝播遅延が発生することがあります。
 - ほとんどのモデルベースの指標は gemini-2.0-flash の割り当てを消費します。これは、Gen AI Evaluation Service が基盤となるジャッジモデルとして 
gemini-2.0-flashを利用して、これらのモデルベースの指標を計算するためです。 - MetricX や COMET など一部のモデルベースの指標は、別の ML モデルを使用するため、gemini-2.0-flash の割り当ては消費しません。
 
構文の例
評価呼び出しを送信する構文。
curl
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances \ -d '{ "pointwise_metric_input" : { "metric_spec" : { ... }, "instance": { ... }, } }'
Python
import json from google import auth from google.api_core import exceptions from google.auth.transport import requests as google_auth_requests creds, _ = auth.default( scopes=['https://www.googleapis.com/auth/cloud-platform']) data = { ... } uri = f'https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances' result = google_auth_requests.AuthorizedSession(creds).post(uri, json=data) print(json.dumps(result.json(), indent=2))
パラメータ リスト
| パラメータ | |
|---|---|
  | 
    省略可:  予測が参照と完全に一致しているかどうかを評価するための入力。  | 
  
  | 
    省略可:  予測と参照を比較して BLEU スコアを計算するための入力。  | 
  
  | 
    省略可:  予測と参照を比較して   | 
  
  | 
    省略可:  単一レスポンスの回答の言語習熟度を評価するための入力。  | 
  
  | 
    省略可:  単一のレスポンスが、一貫性があり、わかりやすい内容の返信を行うことができるかどうかを評価するための入力。  | 
  
  | 
    省略可:  単一レスポンスの安全性レベルを評価するための入力。  | 
  
  | 
    省略可:  単一のレスポンスが、入力テキストにのみ含まれる情報を提供または参照できるかどうかを評価するための入力。  | 
  
  | 
    省略可:  単一のレスポンスが指示内容の要件を完全に満たすことができるかどうかを評価するための入力。  | 
  
  | 
    省略可:  全般的に見て単一レスポンスがどの程度適切にテキストを要約できるかを評価するための入力。  | 
  
  | 
    省略可:  2 つのレスポンスの全般的な要約の品質を比較するための入力。  | 
  
  | 
    省略可:  単一レスポンスが、元のテキストを置き換えるために必要な詳細情報を含む要約を提供できるかどうかを評価するための入力。  | 
  
  | 
    省略可:  単一のレスポンスが簡潔な要約を提示できるかどうかを評価するための入力。  | 
  
  | 
    省略可:  全般的に見て、参照するテキスト本文が与えられたときに、単一のレスポンスがどの程度質問に回答できるかを評価するための入力。  | 
  
  | 
    省略可:  全般的に見て、参照するテキスト本文が与えられたときに、2 つのレスポンスがどの程度質問に回答できるかを比較するための入力。  | 
  
  | 
    省略可:  質問に対して単一のレスポンスが関連する情報で応答できるかどうかを評価するための入力。  | 
  
  | 
    省略可:  質問に答える際に単一のレスポンスが重要な詳細情報を提供できるかどうかを評価するための入力。  | 
  
  | 
    省略可:  単一のレスポンスが質問に正しく答えられるかどうかを評価するための入力。  | 
  
  | 
    省略可:  一般的なポイントワイズ評価の入力。  | 
  
  | 
    省略可:  一般的なペアワイズ評価の入力。  | 
  
  | 
    省略可:  単一のレスポンスが有効なツール呼び出しを予測できるかどうかを評価するための入力。  | 
  
  | 
    省略可:  単一のレスポンスがツール呼び出しを正しいツール名で予測できるかどうかを評価するための入力。  | 
  
  | 
    省略可:  単一のレスポンスが、正しいパラメータ名でツール呼び出しを予測できるかどうかを評価するための入力。  | 
  
  | 
    省略可:  単一のレスポンスが、正しいパラメータ名と値でツール呼び出しを予測できるかどうかを評価するための入力  | 
  
  | 
    省略可:  COMET を使用して評価する入力。  | 
  
  | 
    省略可:  MetricX を使用して評価する入力。  | 
  
ExactMatchInput
{ "exact_match_input": { "metric_spec": {}, "instances": [ { "prediction": string, "reference": string } ] } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価の入力。LLM のレスポンスと参照で構成されます。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
  | 
    省略可:  参照用のゴールデン LLM レスポンス。  | 
  
ExactMatchResults
{ "exact_match_results": { "exact_match_metric_values": [ { "score": float } ] } }
| 出力 | |
|---|---|
  | 
    
 インスタンス入力ごとの評価結果。  | 
  
  | 
    
 次のいずれかになります。 
  | 
  
BleuInput
{ "bleu_input": { "metric_spec": { "use_effective_order": bool }, "instances": [ { "prediction": string, "reference": string } ] } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  一致のない n グラムの順序を考慮するかどうか。  | 
  
  | 
    省略可:  評価の入力。LLM のレスポンスと参照で構成されます。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
  | 
    省略可:  参照用のゴールデン LLM レスポンス。  | 
  
BleuResults
{ "bleu_results": { "bleu_metric_values": [ { "score": float } ] } }
| 出力 | |
|---|---|
  | 
    
 インスタンス入力ごとの評価結果。  | 
  
  | 
    
  | 
  
RougeInput
{ "rouge_input": { "metric_spec": { "rouge_type": string, "use_stemmer": bool, "split_summaries": bool }, "instances": [ { "prediction": string, "reference": string } ] } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  使用できる値: 
  | 
  
  | 
    省略可:  一致を改善するために Porter ステムを使用して単語の接尾辞を削除するかどうか。  | 
  
  | 
    省略可:  rougeLsum の文の間に改行を追加するかどうか。  | 
  
  | 
    省略可:  評価の入力。LLM のレスポンスと参照で構成されます。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
  | 
    省略可:  参照用のゴールデン LLM レスポンス。  | 
  
RougeResults
{ "rouge_results": { "rouge_metric_values": [ { "score": float } ] } }
| 出力 | |
|---|---|
  | 
    
 インスタンス入力ごとの評価結果。  | 
  
  | 
    
  | 
  
FluencyInput
{ "fluency_input": { "metric_spec": {}, "instance": { "prediction": string } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価の入力(LLM レスポンスで構成)。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
FluencyResult
{ "fluency_result": { "score": float, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
CoherenceInput
{ "coherence_input": { "metric_spec": {}, "instance": { "prediction": string } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価の入力(LLM レスポンスで構成)。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
CoherenceResult
{ "coherence_result": { "score": float, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
SafetyInput
{ "safety_input": { "metric_spec": {}, "instance": { "prediction": string } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価の入力(LLM レスポンスで構成)。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
SafetyResult
{ "safety_result": { "score": float, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
GroundednessInput
{ "groundedness_input": { "metric_spec": {}, "instance": { "prediction": string, "context": string } } }
パラメータ  | 
    説明  | 
  
  | 
    省略可: GroundednessSpec 指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可: GroundednessInstance 評価入力。推論入力と対応するレスポンスで構成されます。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
  | 
    省略可:  推論時のテキスト。LLM レスポンスで使用できるすべての情報が含まれています。  | 
  
GroundednessResult
{ "groundedness_result": { "score": float, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
FulfillmentInput
{ "fulfillment_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価入力。推論入力と対応するレスポンスで構成されます。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
  | 
    省略可:  推論時に使用される命令。  | 
  
FulfillmentResult
{ "fulfillment_result": { "score": float, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
SummarizationQualityInput
{ "summarization_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価入力。推論入力と対応するレスポンスで構成されます。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
  | 
    省略可:  推論時に使用される命令。  | 
  
  | 
    省略可:  推論時のテキスト。LLM レスポンスで使用できるすべての情報が含まれています。  | 
  
SummarizationQualityResult
{ "summarization_quality_result": { "score": float, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
PairwiseSummarizationQualityInput
{ "pairwise_summarization_quality_input": { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string, } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価入力。推論入力と対応するレスポンスで構成されます。  | 
  
  | 
    省略可:  ベースライン モデルの LLM レスポンス。  | 
  
  | 
    省略可:  候補モデルの LLM レスポンス。  | 
  
  | 
    省略可:  推論時に使用される命令。  | 
  
  | 
    省略可:  推論時のテキスト。LLM レスポンスで使用できるすべての情報が含まれています。  | 
  
PairwiseSummarizationQualityResult
{ "pairwise_summarization_quality_result": { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
SummarizationHelpfulnessInput
{ "summarization_helpfulness_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価入力。推論入力と対応するレスポンスで構成されます。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
  | 
    省略可:  推論時に使用される命令。  | 
  
  | 
    省略可:  推論時のテキスト。LLM レスポンスで使用できるすべての情報が含まれています。  | 
  
SummarizationHelpfulnessResult
{ "summarization_helpfulness_result": { "score": float, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
SummarizationVerbosityInput
{ "summarization_verbosity_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価入力。推論入力と対応するレスポンスで構成されます。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
  | 
    省略可:  推論時に使用される命令。  | 
  
  | 
    省略可:  推論時のテキスト。LLM レスポンスで使用できるすべての情報が含まれています。  | 
  
SummarizationVerbosityResult
{ "summarization_verbosity_result": { "score": float, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
QuestionAnsweringQualityInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価入力。推論入力と対応するレスポンスで構成されます。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
  | 
    省略可:  推論時に使用される命令。  | 
  
  | 
    省略可:  推論時のテキスト。LLM レスポンスで使用できるすべての情報が含まれています。  | 
  
QuestionAnsweringQualityResult
{ "question_answering_quality_result": { "score": float, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
PairwiseQuestionAnsweringQualityInput
{ "pairwise_question_answering_quality_input": { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価入力。推論入力と対応するレスポンスで構成されます。  | 
  
  | 
    省略可:  ベースライン モデルの LLM レスポンス。  | 
  
  | 
    省略可:  候補モデルの LLM レスポンス。  | 
  
  | 
    省略可:  推論時に使用される命令。  | 
  
  | 
    省略可:  推論時のテキスト。LLM レスポンスで使用できるすべての情報が含まれています。  | 
  
PairwiseQuestionAnsweringQualityResult
{ "pairwise_question_answering_quality_result": { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
QuestionAnsweringRelevanceInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価入力。推論入力と対応するレスポンスで構成されます。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
  | 
    省略可:  推論時に使用される命令。  | 
  
  | 
    省略可:  推論時のテキスト。LLM レスポンスで使用できるすべての情報が含まれています。  | 
  
QuestionAnsweringRelevancyResult
{ "question_answering_relevancy_result": { "score": float, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
QuestionAnsweringHelpfulnessInput
{ "question_answering_helpfulness_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価入力。推論入力と対応するレスポンスで構成されます。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
  | 
    省略可:  推論時に使用される命令。  | 
  
  | 
    省略可:  推論時のテキスト。LLM レスポンスで使用できるすべての情報が含まれています。  | 
  
QuestionAnsweringHelpfulnessResult
{ "question_answering_helpfulness_result": { "score": float, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
QuestionAnsweringCorrectnessInput
{ "question_answering_correctness_input": { "metric_spec": { "use_reference": bool }, "instance": { "prediction": string, "reference": string, "instruction": string, "context": string } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価で参照が使用されるかどうか。  | 
  
  | 
    省略可:  評価入力。推論入力と対応するレスポンスで構成されます。  | 
  
  | 
    省略可:  LLM レスポンス。  | 
  
  | 
    省略可:  参照用のゴールデン LLM レスポンス。  | 
  
  | 
    省略可:  推論時に使用される命令。  | 
  
  | 
    省略可:  推論時のテキスト。LLM レスポンスで使用できるすべての情報が含まれています。  | 
  
QuestionAnsweringCorrectnessResult
{ "question_answering_correctness_result": { "score": float, "explanation": string, "confidence": float } }
| 出力 | |
|---|---|
  | 
    
 
  | 
  
  | 
    
  | 
  
  | 
    
  | 
  
PointwiseMetricInput
{ "pointwise_metric_input": { "metric_spec": { "metric_prompt_template": string }, "instance": { "json_instance": string, } } }
| パラメータ | |
|---|---|
  | 
    必須:  指標の動作を定義する指標の仕様。  | 
  
  | 
    必須:  指標を定義するプロンプト テンプレート。これは、instance.json_instance の Key-Value ペアによってレンダリングされます。  | 
  
  | 
    必須:  評価入力。json_instance で構成されます。  | 
  
  | 
    省略可:  Json 形式の Key-Value ペア。例: {"key_1": "value_1", "key_2": "value_2"}。metric_spec.metric_prompt_template のレンダリングに使用されます。  | 
  
PointwiseMetricResult
{ "pointwise_metric_result": { "score": float, "explanation": string, } }
| 出力 | |
|---|---|
  | 
    
  | 
  
  | 
    
  | 
  
PairwiseMetricInput
{ "pairwise_metric_input": { "metric_spec": { "metric_prompt_template": string }, "instance": { "json_instance": string, } } }
| パラメータ | |
|---|---|
  | 
    必須:  指標の動作を定義する指標の仕様。  | 
  
  | 
    必須:  指標を定義するプロンプト テンプレート。これは、instance.json_instance の Key-Value ペアによってレンダリングされます。  | 
  
  | 
    必須:  評価入力。json_instance で構成されます。  | 
  
  | 
    省略可:  JSON 形式の Key-Value ペア。例: {"key_1": "value_1", "key_2": "value_2"}。metric_spec.metric_prompt_template のレンダリングに使用されます。  | 
  
PairwiseMetricResult
{ "pairwise_metric_result": { "score": float, "explanation": string, } }
| 出力 | |
|---|---|
  | 
    
  | 
  
  | 
    
  | 
  
ToolCallValidInput
{ "tool_call_valid_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価の入力。LLM のレスポンスと参照で構成されます。  | 
  
  | 
    省略可:  候補モデルの LLM レスポンス。これは、 { "content": "", "tool_calls": [ { "name": "book_tickets", "arguments": { "movie": "Mission Impossible Dead Reckoning Part 1", "theater": "Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30", "num_tix": "2" } } ] }  | 
  
  | 
    省略可:  予測と同じ形式のゴールデン モデル出力。  | 
  
ToolCallValidResults
{ "tool_call_valid_results": { "tool_call_valid_metric_values": [ { "score": float } ] } }
| 出力 | |
|---|---|
  | 
    繰り返し   | 
  
  | 
    
 
  | 
  
ToolNameMatchInput
{ "tool_name_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価の入力。LLM のレスポンスと参照で構成されます。  | 
  
  | 
    省略可:  候補モデルの LLM レスポンス。これは、  | 
  
  | 
    省略可:  予測と同じ形式のゴールデン モデル出力。  | 
  
ToolNameMatchResults
{ "tool_name_match_results": { "tool_name_match_metric_values": [ { "score": float } ] } }
| 出力 | |
|---|---|
  | 
    繰り返し   | 
  
  | 
    
 
  | 
  
ToolParameterKeyMatchInput
{ "tool_parameter_key_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価の入力。LLM のレスポンスと参照で構成されます。  | 
  
  | 
    省略可:  候補モデルの LLM レスポンス。これは、  | 
  
  | 
    省略可:  予測と同じ形式のゴールデン モデル出力。  | 
  
ToolParameterKeyMatchResults
{ "tool_parameter_key_match_results": { "tool_parameter_key_match_metric_values": [ { "score": float } ] } }
| 出力 | |
|---|---|
  | 
    繰り返し   | 
  
  | 
    
  | 
  
ToolParameterKVMatchInput
{ "tool_parameter_kv_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  評価の入力。LLM のレスポンスと参照で構成されます。  | 
  
  | 
    省略可:  候補モデルの LLM レスポンス。これは、  | 
  
  | 
    省略可:  予測と同じ形式のゴールデン モデル出力。  | 
  
ToolParameterKVMatchResults
{ "tool_parameter_kv_match_results": { "tool_parameter_kv_match_metric_values": [ { "score": float } ] } }
| 出力 | |
|---|---|
  | 
    繰り返し   | 
  
  | 
    
  | 
  
CometInput
{ "comet_input" : { "metric_spec" : { "version": string }, "instance": { "prediction": string, "source": string, "reference": string, }, } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  
  | 
  
  | 
    省略可:  原文の言語(BCP-47 形式)。例: 「es」。  | 
  
  | 
    省略可:  訳文の言語(BCP-47 形式)。例: 「es」  | 
  
  | 
    省略可:  評価の入力。LLM のレスポンスと参照で構成されます。評価に使用される正確なフィールドは、COMET のバージョンによって異なります。  | 
  
  | 
    省略可:  候補モデルの LLM レスポンス。これは、評価対象の LLM の出力です。  | 
  
  | 
    省略可:  原文テキスト。これは、予測の翻訳元の言語です。  | 
  
  | 
    省略可:  予測と比較するために使用されるグラウンド トゥルース。これは予測と同じ言語です。  | 
  
CometResult
{ "comet_result" : { "score": float } }
| 出力 | |
|---|---|
  | 
    
  | 
  
MetricxInput
{ "metricx_input" : { "metric_spec" : { "version": string }, "instance": { "prediction": string, "source": string, "reference": string, }, } }
| パラメータ | |
|---|---|
  | 
    省略可:  指標の動作を定義する指標の仕様。  | 
  
  | 
    省略可:  
 次のいずれかになります。 
  | 
  
  | 
    省略可:  原文の言語(BCP-47 形式)。例: 「es」。  | 
  
  | 
    省略可:  訳文の言語(BCP-47 形式)。例: 「es」。  | 
  
  | 
    省略可:  評価の入力。LLM のレスポンスと参照で構成されます。評価に使用される正確なフィールドは、MetricX のバージョンによって異なります。  | 
  
  | 
    省略可:  候補モデルの LLM レスポンス。これは、評価対象の LLM の出力です。  | 
  
  | 
    省略可:  予測の翻訳元の言語による原文テキスト。  | 
  
  | 
    省略可:  予測と比較するために使用されるグラウンド トゥルース。予測と同じ言語です。  | 
  
MetricxResult
{ "metricx_result" : { "score": float } }
| 出力 | |
|---|---|
  | 
    
  | 
  
例
出力を評価する
次の例は、Gen AI Evaluation API を呼び出し、次のようなさまざまな評価指標を使用して LLM の出力を評価する方法を示しています。
summarization_qualitygroundednessfulfillmentsummarization_helpfulnesssummarization_verbosity
Python
Go
出力を評価する: ペアワイズの要約の品質
次の例は、Gen AI Evaluation Service API を呼び出し、ペアワイズ要約品質の比較を使用して LLM の出力を評価する方法を示しています。
REST
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID:
 - LOCATION: リクエストを処理するリージョン。
 - PREDICTION: LLM レスポンス。
 - BASELINE_PREDICTION: ベースライン モデルの LLM レスポンス。
 - INSTRUCTION: 推論時に使用される命令。
 - CONTEXT: 推論時のテキスト。LLM レスポンスで使用できるすべての関連情報が含まれています。
 
HTTP メソッドと URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \
リクエストの本文(JSON):
{
  "pairwise_summarization_quality_input": {
    "metric_spec": {},
    "instance": {
      "prediction": "PREDICTION",
      "baseline_prediction": "BASELINE_PREDICTION",
      "instruction": "INSTRUCTION",
      "context": "CONTEXT",
    }
  }
}
リクエストを送信するには、次のいずれかのオプションを選択します。
curl
      リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \"
PowerShell
      リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \" | Select-Object -Expand Content
Python
Python
Vertex AI SDK for Python のインストールまたは更新の方法については、Vertex AI SDK for Python をインストールするをご覧ください。詳細については、Python API リファレンス ドキュメントをご覧ください。
Go
Go
このサンプルを試す前に、Vertex AI クイックスタート: クライアント ライブラリの使用にある Go の設定手順を完了してください。詳細については、Vertex AI Go API のリファレンス ドキュメントをご覧ください。
Vertex AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
ROUGE スコアを取得する
次の例では、Gen AI Evaluation Service API を呼び出して、複数の入力によって生成された予測の ROUGE スコアを取得します。ROUGE 入力は metric_spec を使用し、指標の動作を決定します。
REST
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID:
 - LOCATION: リクエストを処理するリージョン。
 - PREDICTION: LLM レスポンス。
 - REFERENCE: 参照用のゴールデン LLM レスポンス。
 - ROUGE_TYPE: ROUGE スコアの決定に使用される計算。使用できる値については、
metric_spec.rouge_typeをご覧ください。 - USE_STEMMER: 一致を改善するために Porter ステムを使用して単語の接尾辞を削除するかどうかを決定します。有効な値については、
metric_spec.use_stemmerをご覧ください。 - SPLIT_SUMMARIES: 
rougeLsum文の間に改行を追加するかどうかを決定します。有効な値については、metric_spec.split_summariesをご覧ください。 
HTTP メソッドと URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \
リクエストの本文(JSON):
{
  "rouge_input": {
    "instances": {
      "prediction": "PREDICTION",
      "reference": "REFERENCE.",
    },
    "metric_spec": {
      "rouge_type": "ROUGE_TYPE",
      "use_stemmer": USE_STEMMER,
      "split_summaries": SPLIT_SUMMARIES,
    }
  }
}
リクエストを送信するには、次のいずれかのオプションを選択します。
curl
      リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \"
PowerShell
      リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \" | Select-Object -Expand Content
Python
Python
Vertex AI SDK for Python のインストールまたは更新の方法については、Vertex AI SDK for Python をインストールするをご覧ください。詳細については、Python API リファレンス ドキュメントをご覧ください。
Go
Go
このサンプルを試す前に、Vertex AI クイックスタート: クライアント ライブラリの使用にある Go の設定手順を完了してください。詳細については、Vertex AI Go API のリファレンス ドキュメントをご覧ください。
Vertex AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
次のステップ
- 詳細なドキュメントについては、評価を実行するをご覧ください。