生成式 AI 评估服务概览

本页面简要介绍了生成式 AI 评估服务,该服务可让您评估模型在多种具体的应用场景中的性能。您也可以将评估视为一种用来实现对模型性能的可观测性的方法。通过生成式 AI 评估服务,您可以监控模型在不同条件下的性能,从而提供有用的数据洞见来帮助您根据具体的应用场景优化模型。

排行榜可以提供有关模型一般性能的指标,但无法提供指标来体现模型在具体应用场景中的性能。在开发大语言模型 (LLM) 时,请务必使用具体应用场景的特定标准来评估模型。

评估有助于确保模型能够适应不同用户的特定领域要求。根据用户定义的基准和目标评估模型后,您可以相应地应用提示工程模型调优,使模型能够更好地满足用户的业务需求。这些评估结果可用来为模型的开发和改进提供指导性信息,同时帮助确保模型对用户来说是实用、安全和有效的。

实际使用示例

您可以评估生成式 AI 模型,为模型性能提供一定的基准,还能为模型和应用的战略性开发和优化提供指导性信息。此过程有助于确保生成式 AI 模型符合您的业务需求。模型评估在不同的开发阶段有不同的好处。对于测试环境,您可以使用模型评估来帮助自己选择模型并对模型进行自定义设置。对于生产环境,您可以监控模型的性能,以确保模型有效。

生成式 AI 评估可以应用于一系列使用场景,包括:

  • 选择预训练模型:通过评估模型在相关基准任务上的性能,为特定任务或应用选择预训练模型。
  • 配置模型生成设置:优化模型生成参数(例如 temperature)的配置设置,从而提高任务的性能。
  • 使用模板实现提示工程:设计更有效的提示,以产生更优质的输出,从而增强您与模型的互动。
  • 通过微调实现改进和保护措施:通过微调提升模型性能,同时避免偏差或不良行为。

如需详细了解生成式语言模型,请参阅评估笔记本

评估服务

Vertex AI 提供了两种服务选项来对生成式 AI 模型执行评估。您可以选择最适合自己应用场景的服务选项:

服务 应用场景
在线评估(快速评估) 需要评估的实例较少。工作流需要快速迭代。
流水线评估(AutoSxS 和基于计算) 需要评估的实例较多。异步工作流和 MLOps。基于 Vertex AI Pipelines 构建的评估模板。

快速评估

快速评估服务可为小批量数据生成低延迟的同步评估结果。您可以按需执行评估,并使用 Vertex AI SDK for Python 将在线服务集成到其他 Vertex AI 服务中。使用 SDK 可使在线服务适应各种应用场景。

在线服务最适合涉及小批量数据或是您必须快速进行迭代和实验的应用场景。

流水线评估:AutoSxS 和基于计算

评估流水线服务提供用于评估生成式 AI 模型的端到端选项。这些选项使用 Vertex AI Pipelines 编排与评估相关的一系列步骤,例如生成模型回答、调用在线评估服务和计算指标。您也可以在自定义流水线中单独调用这些步骤。

由于 Vertex AI Pipelines 是无服务器的,因此使用流水线进行评估时存在更高的启动延迟时间。所以此服务更适合较大的评估作业、不需要立即获得评估结果的工作流以及集成到 MLOps 流水线中的任务。

我们提供两个单独的评估流水线,如下所示:

评估范式

生成式 AI 评估的运作机制基于用来评估模型的两种范式,如下所示:

  • 逐点:您可以评估一个模型。
  • 成对:您可以将两个模型相互比较。

逐点

逐点评估用于评估单个模型的性能。它有助于您了解模型在特定任务(例如 summarization)或某个维度(例如 instruction following)上的性能表现。该评估流程包括以下步骤:

  1. 通过模型根据输入提示生成预测结果。
  2. 根据生成的结果执行评估。

可能需要提供输入和输出对以及标准答案,具体取决于所用的评估方法。当有标准答案可用时,系统会根据输出与预期结果的一致程度来评估模型的输出。如需了解详情,请参阅运行基于计算的评估。如果没有使用标准答案,则评估基于模型对输入提示的回答来完成。系统还使用了一个单独的自动评估器模型。如需了解详情,请参阅运行 AutoSxS 评估(基于模型的配对评估),以生成根据任务的性质自定义的指标。例如,您可以在 text generation 中使用 coherencerelevance,或在 summarization 中使用 accuracy

这种范式使您能够了解模型生成内容的能力,提供有用的数据洞见来帮助您通过独立上下文了解模型的优势和需要改进的领域,而不需要与另一个模型进行直接比较。

成对

成对评估是通过比较两个模型的预测结果来执行的。在这种评估中,您将有一个模型 A 需要针对模型 B(基准参考模型)进行评估。您必须提供输入提示,它们表示用于比较模型的输入领域。如果提供相同的输入提示,并排比较则会根据比较标准指定首选模型预测。最终评估结果通过 win rate 来捕获。此范式的运行还可以不需要引用标准答案数据。

评估方法

根据评估方法,有两类指标可用,如下所示:

基于计算的指标

基于计算的指标会比较 LLM 生成的结果是否与输入输出对的标准答案数据集一致。常用的指标可以分为以下几组:

  • 基于词汇的指标:使用数学方法计算 LLM 生成的结果与标准答案之间的字符串相似度,例如 Exact MatchROUGE
  • 基于计数的指标:汇总计算命中或未命中某些标准答案标签(例如 F1-scoreAccuracyTool Name Match)的行数。
  • 基于嵌入的指标:计算 LLM 生成的结果与标准答案在嵌入空间中的距离,以反映它们的相似度级别。

在生成式 AI 评估服务中,您可以通过流水线和快速评估 Python SDK 使用基于计算的指标。基于计算的评估只能在逐点应用场景中执行。不过,对于成对比较应用场景,您可以直接比较两个模型的指标得分。

基于模型的指标

可使用自动评估器模型来生成基于模型的评估指标。与人类评估者非常相似,自动评估器可以执行复杂而细微的评估。自动评估器会尝试增强人工评估,我们亦会通过人工标注者离线校准自动评估器的质量。与人类评估者非常相似,自动评估器会通过一个得分的数值输出来确定回答的质量,并给出其判断背后的推理以及置信度水平。如需了解详情,请参阅查看评估结果

基于模型的评估是按需提供的,用于评估语言模型,与人工标注者的评估效果相当。基于模型的评估还有一些其他优势,包括:

  • 不使用人类偏好数据评估自然语言模型。
  • 与使用人工标注者来评估语言模型这种方法相比,它可以实现更好的扩缩能力、提高可用性并降低费用。
  • 通过捕获偏好说明和置信度分数来实现评分透明度。

此图说明了基于模型的成对评估的工作原理,该评估方法可在逐点和成对应用场景中执行。您可以了解自动评估器如何在评估流水线服务 AutoSxS 中执行成对评估。

AutoSxS 的工作原理概览

后续步骤