我们提供了一些示例,演示如何使用快速评估 SDK 对生成式 AI 模型执行评估。
评估和优化提示模板设计
使用快速评估 SDK 评估提示工程的效果。检查与每个提示模板对应的统计信息,以了解提示的差异对评估结果有何影响。
如需查看端到端示例,请参阅笔记本评估和优化提示模板设计以获得更好的结果。
使用基准指标评估和选择 LLM 模型
使用快速评估 SDK 根据基准数据集和任务为 Gemini Pro 和 Text Bison 模型打分。
如需查看端到端示例,请参阅笔记本对 LLM 模型进行打分和选择。
评估和选择模型生成设置
使用快速评估 SDK 调整摘要任务中的 Gemini Pro 温度,并评估 quality
、fluency
、safety
和 verbosity
。
如需查看端到端示例,请参阅笔记本评估和选择模型生成设置。
定义指标
使用快速评估 SDK 通过自定义的指标评估多个提示模板。
如需查看端到端示例,请参阅笔记本定义您自己的指标。
评估工具使用情况
使用快速评估 SDK 定义 Gemini 模型的 API 函数和工具。您还可以使用 SDK 评估 Gemini 的工具使用情况和函数调用质量。
如需查看端到端示例,请参阅笔记本评估生成模型工具使用情况和函数调用。
后续步骤
- 了解如何快速开始评估模型。
- 了解生成式 AI 评估。
- 了解如何利用快速评估进行在线评估。
- 了解如何使用 AutoSxS 流水线进行基于模型的成对评估。
- 了解基于计算的评估流水线。
- 了解如何调整基础模型。