評価データセットは通常、評価するモデル レスポンスと、レスポンスの生成に使用される入力データで構成されます。また、グラウンド トゥルース レスポンスが含まれることもあります。次の表に、評価データセットの作成に必要な入力を示します。
入力タイプ | 入力フィールドの内容 |
---|---|
response | 評価対象の LLM 推論レスポンス。 |
instruction | LLM に送信される推論の指示とプロンプト。 |
context | LLM レスポンスの基となるコンテキスト。要約の場合、LLM が要約するテキストです。質問と回答の場合、オープンブック質問回答に LLM が回答するために提供される背景情報です。 |
reference | LLM のレスポンスを比較するグラウンド トゥルース。 |
baseline_response | 比較評価で LLM レスポンスと比較するために使用されるベースラインの LLM 推論レスポンス。これはベースライン レスポンスとも呼ばれます。 |
評価データセットに必要な入力は、選択した評価パラダイムと指標、タスク自体の性質によって異なります。指標とその想定される入力の完全なリストについては、タスクと指標をご覧ください。
評価データセットをキュレートする際は、統計的に有意な結果が得られるように、データセットが十分な大きさであることを確認することが重要です。一般的なベンチマークでは、少なくとも 100 個のサンプルを含めます。このサイズにより、集計された評価結果の信頼度を高め、外れ値の影響を最小限に抑えることができます。また、さまざまなシナリオでのモデルの真の能力をパフォーマンス指標に反映させることができます。適切なサイズのデータセットを使用することで、評価の信頼性が向上するだけでなく、十分な情報に基づいて意思決定を行うための基盤を強化できます。
評価データセットの使用方法
評価データセットを準備したら、迅速評価 Python SDK または評価パイプライン サービスで使用できます。データセットは、Cloud Storage などの場所からインポートできます。また、Vertex AI には、カスタマイズしたデータセットが使用可能になる前に評価ワークフローを設定できるように、前処理済みの Kaggle データセットが用意されています。データセットの使用方法の詳細については、評価の実行をご覧ください。
カスタマイズされたデータセットを使用する
生成 AI の評価サービスでは、評価データセットを複数の方法で使用できます。Python SDK とパイプラインでは、評価データセットの入力形式に関する要件が異なります。Python SDK とパイプラインでデータセットをインポートする方法については、評価の例をご覧ください。
生成 AI の評価サービスの機能 | サポートされているデータセットのロケーションと形式 | 必要な入力 |
---|---|---|
Python SDK | Cloud Storage に保存されている JSONL または CSV ファイル BigQuery テーブル Pandas DataFrame |
形式は、選択した指標の入力要件と一致している必要があります(タスクと指標を参照)。次の列が必要になる場合があります。
|
計算ベースのパイプライン | Cloud Storage に保存された JSONL ファイル | input_text output_text |
AutoSxS パイプライン | Cloud Storage に保存された JSONL ファイル BigQuery テーブル |
形式は、推論に必要な各モデルと一致している必要があります。パラメータは、評価タスクの自動評価で想定されています。入力パラメータには、次のものが含まれます。
|
Kaggle データセットを使用する
カスタマイズしたデータセットが生成 AI の評価サービスで使用可能な状態になっていない場合は、Vertex AI で前処理済みの Kaggle データセットを使用できます。このデータセットは、text generation
、summarization
、question answering
などのタスクをサポートしています。データセットは、Python SDK とパイプラインで使用できる次の形式に変換されます。
Kaggle データセット | サポートされているタスク | 前処理済みのデータセット | Cloud Storage の URL | サポートされている機能 |
---|---|---|---|---|
BillSum | General text generation Summarization |
summaries_evaluation.jsonl summaries_evaluation_autorater.jsonl summaries_evaluation_for_sdk.jsonl |
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation. gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl |
計算ベースのパイプライン AutoSxS パイプライン 迅速評価 Python SDK |
医療用音声文字変換 | テキスト分類 | medical_speciality_from_transcription.jsonl medical_speciality_from_transcription_autorater.jsonl |
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl |
計算ベースのパイプライン AutoSxS パイプライン |
データセットを使用する際は、データセット全体を使用するのではなく、まず行の一部をサンプリングしてワークフローをテストします。表に記載されているデータセットでは、リクエスト元の支払が有効になっています。つまり、データ処理料金とネットワーク使用料金が発生します。
次のステップ
- 評価用のサンプル ノートブックを試す。
- 生成 AI の評価について学習する。
- 迅速評価によるオンライン評価について学習する。
- AutoSxS パイプラインを使用したモデルベースのペアワイズ評価について学習する。
- コンピューティング ベースの評価パイプラインについて学習する。
- 基盤モデルのチューニング方法を学習する。