评估数据集通常包含您要评估的模型回答、用于生成回答的输入数据,还可能包含标准答案回答。下表提供了构建评估数据集所需的输入。
输入类型 | 输入字段内容 |
---|---|
Response | 需要评估的 LLM 推理回答。 |
指令 | 发送到 LLM 的推理说明和提示。 |
context | LLM 回答所基于的上下文。对于摘要任务,这是 LLM 要摘要的文本。对于问答任务,这是为 LLM 提供的背景信息,以便 LLM 回答开放式问答问题。 |
参考 | 与 LLM 回答进行比较的标准答案。 |
baseline_response | 基准 LLM 推理回答,用于在并排评估中比较 LLM 回答。这也称为基准回答。 |
评估数据集所需的输入因您选择的评估范式和指标以及任务本身的性质而异。如需查看指标及其预期输入的完整列表,请参阅任务和指标。
挑选评估数据集时,请务必确保数据集足够大,可以产生具有统计显著性的结果。常见基准是至少包含 100 个样本。此规模有助于在汇总评估结果中建立更高的置信度,从而最大限度地减少离群值的影响,并确保性能指标反映了模型在不同场景中的真实能力。规模合理的数据集不仅可以提高评估的可靠性,还可以为做出明智的决策提供更稳健的基础。
如何使用评估数据集
准备好评估数据集后,您可以在快速评估 Python SDK 中或通过评估流水线服务使用该数据集。您可以从 Cloud Storage 等位置导入数据集。Vertex AI 还提供了一些经过预处理的 Kaggle 数据集,以便您在自定义数据集可供使用之前设置评估工作流。您可以在执行评估中找到有关如何使用数据集的详细信息。
使用自定义数据集
生成式 AI 评估服务可以通过多种方式使用评估数据集。我们的 Python SDK 和流水线对评估数据集输入格式有不同的要求。如需了解如何在 Python SDK 和流水线中导入数据集,请参阅评估示例。
生成式 AI 评估服务功能 | 支持的数据集位置和格式 | 所需输入 |
---|---|---|
Python SDK | 存储在 Cloud Storage 中的 JSONL 或 CSV 文件 BigQuery 表 Pandas DataFrame |
此格式应与任务和指标中的所选指标输入要求一致。以下列可能是必需的:
|
基于计算的流水线 | 存储在 Cloud Storage 中的 JSONL 文件 | input_text output_text |
AutoSxS 流水线 | 存储在 Cloud Storage 中的 JSONL 文件 BigQuery 表 |
该格式应与每个模型进行推理所需的内容一致,并且自动评分器应为评估任务使用这些参数。输入参数包括:
|
使用 Kaggle 数据集
如果您的自定义数据集尚未准备好与生成式 AI 评估服务搭配使用,Vertex AI 会提供预处理的 Kaggle 数据集。数据集支持 text generation
、summarization
、question answering
等任务。数据集会转换为 Python SDK 和 Pipelines 可使用的以下格式。
Kaggle 数据集 | 支持的任务 | 预处理后的数据集 | Cloud Storage 网址 | 支持的功能 |
---|---|---|---|---|
BillSum | General text generation Summarization |
summaries_evaluation.jsonl summaries_evaluation_autorater.jsonl summaries_evaluation_for_sdk.jsonl |
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation. gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl |
基于计算的流水线 AutoSxS 流水线 快速评估 Python SDK |
医疗转写记录 | 文本分类 | medical_speciality_from_transcription.jsonl medical_speciality_from_transcription_autorater.jsonl |
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl |
基于计算的流水线 AutoSxS 流水线 |
使用数据集时,您可以先对一小部分行进行采样,以测试工作流(而不是使用完整的数据集)。表格中列出的数据集已启用请求方付费,这意味着它们会产生数据处理费用和网络使用费。
后续步骤
- 试用评估示例笔记本。
- 了解生成式 AI 评估。
- 了解如何利用快速评估进行在线评估。
- 了解如何使用 AutoSxS 流水线进行基于模型的成对评估。
- 了解基于计算的评估流水线。
- 了解如何调整基础模型。