評価データセット

評価データセットは通常、評価するモデル レスポンスと、レスポンスの生成に使用される入力データで構成されます。また、グラウンド トゥルース レスポンスが含まれることもあります。次の表に、評価データセットの作成に必要な入力を示します。

入力タイプ 入力フィールドの内容
response 評価対象の LLM 推論レスポンス。
instruction LLM に送信される推論の指示とプロンプト。
context LLM レスポンスの基となるコンテキスト。要約の場合、LLM が要約するテキストです。質問と回答の場合、オープンブック質問回答に LLM が回答するために提供される背景情報です。
reference LLM のレスポンスを比較するグラウンド トゥルース。
baseline_response 比較評価で LLM レスポンスと比較するために使用されるベースラインの LLM 推論レスポンス。これはベースライン レスポンスとも呼ばれます。

評価データセットに必要な入力は、選択した評価パラダイムと指標、タスク自体の性質によって異なります。指標とその想定される入力の完全なリストについては、タスクと指標をご覧ください。

評価データセットをキュレートする際は、統計的に有意な結果が得られるように、データセットが十分な大きさであることを確認することが重要です。一般的なベンチマークでは、少なくとも 100 個のサンプルを含めます。このサイズにより、集計された評価結果の信頼度を高め、外れ値の影響を最小限に抑えることができます。また、さまざまなシナリオでのモデルの真の能力をパフォーマンス指標に反映させることができます。適切なサイズのデータセットを使用することで、評価の信頼性が向上するだけでなく、十分な情報に基づいて意思決定を行うための基盤を強化できます。

評価データセットの使用方法

評価データセットを準備したら、迅速評価 Python SDK または評価パイプライン サービスで使用できます。データセットは、Cloud Storage などの場所からインポートできます。また、Vertex AI には、カスタマイズしたデータセットが使用可能になる前に評価ワークフローを設定できるように、前処理済みの Kaggle データセットが用意されています。データセットの使用方法の詳細については、評価の実行をご覧ください。

カスタマイズされたデータセットを使用する

生成 AI の評価サービスでは、評価データセットを複数の方法で使用できます。Python SDK とパイプラインでは、評価データセットの入力形式に関する要件が異なります。Python SDK とパイプラインでデータセットをインポートする方法については、評価の例をご覧ください。

生成 AI の評価サービスの機能 サポートされているデータセットのロケーションと形式 必要な入力
Python SDK Cloud Storage に保存されている JSONL または CSV ファイル

BigQuery テーブル

Pandas DataFrame
形式は、選択した指標の入力要件と一致している必要があります(タスクと指標を参照)。次の列が必要になる場合があります。
  • response
  • reference
  • instruction
  • context
計算ベースのパイプライン Cloud Storage に保存された JSONL ファイル input_text
output_text
AutoSxS パイプライン Cloud Storage に保存された JSONL ファイル

BigQuery テーブル
形式は、推論に必要な各モデルと一致している必要があります。パラメータは、評価タスクの自動評価で想定されています。入力パラメータには、次のものが含まれます。
  • ID 列
  • 推論または事前生成された予測用の入力テキスト
  • 自動評価のプロンプト パラメータ

Kaggle データセットを使用する

カスタマイズしたデータセットが生成 AI の評価サービスで使用可能な状態になっていない場合は、Vertex AI で前処理済みの Kaggle データセットを使用できます。このデータセットは、text generationsummarizationquestion answering などのタスクをサポートしています。データセットは、Python SDK とパイプラインで使用できる次の形式に変換されます。

Kaggle データセット サポートされているタスク 前処理済みのデータセット Cloud Storage の URL サポートされている機能
BillSum General text generation

Summarization
summaries_evaluation.jsonl

summaries_evaluation_autorater.jsonl

summaries_evaluation_for_sdk.jsonl
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation.

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl
計算ベースのパイプライン

AutoSxS パイプライン

迅速評価 Python SDK
医療用音声文字変換 テキスト分類 medical_speciality_from_transcription.jsonl

medical_speciality_from_transcription_autorater.jsonl
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl

gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl
計算ベースのパイプライン

AutoSxS パイプライン

データセットを使用する際は、データセット全体を使用するのではなく、まず行の一部をサンプリングしてワークフローをテストします。表に記載されているデータセットでは、リクエスト元の支払が有効になっています。つまり、データ処理料金とネットワーク使用料金が発生します。

次のステップ