我们提供了一些示例,演示如何使用 Vertex AI 上的生成式 AI 评估服务对生成式 AI 模型执行评估。
实时评估模型
借助 Vertex AI 快速评估服务,您可以实时评估生成式 AI 模型。如需了解如何使用快速评估,请参阅运行快速评估。
评估和优化提示模板设计
使用快速评估 SDK 评估提示工程的效果。检查与每个提示模板对应的统计信息,以了解提示的差异对评估结果有何影响。
使用基准指标评估和选择 LLM
使用快速评估 SDK 根据基准数据集和任务为 Gemini 1.0 Pro 和 Gemini 1.5 Pro 模型打分。
评估和选择模型生成设置
使用快速评估 SDK 调整摘要任务中的 Gemini Pro 温度,并评估 quality
、fluency
、safety
和 verbosity
。
定义指标
使用快速评估 SDK 通过自定义的指标评估多个提示模板。
评估工具使用情况和函数调用
使用快速评估 SDK 定义 Gemini 模型的 API 函数和工具。您还可以使用 SDK 评估 Gemini 的工具使用情况和函数调用质量。
评估 RAG 生成的回答以进行问答
使用快速评估 SDK 来评估检索增强生成 (RAG) 生成的回答的问答任务。
针对第三方模型评估 Vertex AI Model Registry 中的 LLM
使用 AutoSxS 评估两个模型之间的响应并确定获胜者。您可以提供响应或使用 Vertex AI 批量预测生成响应。
根据人类偏好数据集检查自动评估器相符情况
使用 AutoSxS 检查自动评估器评分与您为特定任务提供的一组人工评分的相符程度。确定 AutoSxS 是否足以满足您的应用场景的需求,或者是否需要进一步自定义。
评估 Langchain 链
使用快速评估 SDK 来评估 Langchain 链。准备数据,设置 Langchain 链,然后运行评估。
后续步骤
- 了解生成式 AI 评估。
- 了解如何利用快速评估进行在线评估。
- 了解如何使用 AutoSxS 流水线进行基于模型的成对评估。
- 了解基于计算的评估流水线。
- 了解如何调整基础模型。