此页面由 Cloud Translation API 翻译。

评估笔记本

我们提供了一些示例，演示如何使用 Vertex AI 上的生成式 AI 评估服务对生成式 AI 模型执行评估。

实时评估模型

借助 Vertex AI 快速评估服务，您可以实时评估生成式 AI 模型。如需了解如何使用快速评估，请参阅运行快速评估。

使用快速评估 SDK 评估提示工程的效果。检查与每个提示模板对应的统计信息，以了解提示的差异对评估结果有何影响。

使用快速评估 SDK 根据基准数据集和任务为 Gemini 1.0 Pro 和 Gemini 1.5 Pro 模型打分。

使用快速评估 SDK 调整摘要任务中的 Gemini Pro 温度，并评估 quality、fluency、safety 和 verbosity。

使用快速评估 SDK 通过自定义的指标评估多个提示模板。

使用快速评估 SDK 定义 Gemini 模型的 API 函数和工具。您还可以使用 SDK 评估 Gemini 的工具使用情况和函数调用质量。

使用快速评估 SDK 来评估检索增强生成 (RAG) 生成的回答的问答任务。

使用 AutoSxS 评估两个模型之间的响应并确定获胜者。您可以提供响应或使用 Vertex AI 批量预测生成响应。

使用 AutoSxS 检查自动评估器评分与您为特定任务提供的一组人工评分的相符程度。确定 AutoSxS 是否足以满足您的应用场景的需求，或者是否需要进一步自定义。

使用快速评估 SDK 来评估 Langchain 链。准备数据，设置 Langchain 链，然后运行评估。