通过预测性 AI 评估服务,您可以评估模型在多种具体的应用场景中的性能。您也可以将评估视为一种用来实现对模型性能的可观测性的方法。Vertex AI 提供的模型评估可以多种方式应用于典型的机器学习工作流:
您可以在训练模型后,先查看模型评估指标,然后再部署模型。您可以比较多个模型的评估指标,以帮助您确定应该部署哪个模型。
您还可以在将模型部署到生产环境后,定期使用新的传入数据评估模型。如果评估指标指示模型性能下降,您需考虑重新训练模型。此过程称为“持续评估”。
如何解读和使用这些指标取决于您的业务需求和模型训练所要解决的问题。例如,假正例的容忍度可能低于假负例,反之亦然。这些问题决定您在迭代模型时应关注的指标。
预测式 AI 模型评估服务提供的一些关键指标包括:
特征
如需使用 Vertex AI 评估模型,您应该拥有经过训练的模型、批量预测输出和标准答案数据集。以下是使用 Vertex AI 的典型模型评估工作流:
训练模型。 您可以通过 AutoML 或自定义训练在 Vertex AI 中执行此操作。
对模型运行批量预测作业以生成预测结果。
准备“标准答案”数据,即由人工确定的“正确标记”数据。标准答案通常会用作您在模型训练过程中使用的测试数据集。
在模型上运行评估作业,以对批量预测结果与标准答案数据相对比获得的准确率进行评估。
分析评估作业生成的指标。
迭代模型,看看是否可以提高模型的准确率。您可以针对多个模型或模型版本运行多个评估作业,并比较这些作业的结果。
您可以通过多种方式在 Vertex AI 中运行模型评估:
通过 Google Cloud 控制台中的 Vertex AI Model Registry 创建评估。
将 Vertex AI 的模型评估用作 Vertex AI Pipelines 的流水线组件。您可以创建流水线运行和模板,以便在自动 MLOps 工作流中包含模型评估。
您可以单独运行模型评估组件,或者使用其他流水线组件(如批量预测组件)。
Vertex AI 支持对以下模型类型进行评估:
图片
分类
您可以从以下 Cloud Storage 位置查看和下载架构文件:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC:精确率/召回率 (PR) 曲线下的面积,亦称为平均精度。此值的范围在 0 到 1 之间,值越大表示模型质量越高。
- 对数损失:模型预测与目标值之间的交叉熵。此值的范围在零到无穷大之间,值越小表示模型质量越高。
- 置信度阈值:用于确定要返回的预测的置信度分数。模型会返回不低于此值的预测。如果提高置信度阈值,精确率会相应地提高,但召回率会降低。Vertex AI 以不同的阈值返回置信度指标,以显示阈值如何影响精确率和召回率。
- 召回率:模型正确预测此类别的预测所占的比例。也称为真正例率。
- 精确率:模型生成的正确分类预测所占的比例。
- 混淆矩阵:混淆矩阵显示模型正确预测结果的频率。如果预测结果不正确,矩阵会改为显示模型预测的内容。混淆矩阵可帮助您了解模型“混淆”两个结果的出现位置。
表格
分类
您可以从以下 Cloud Storage 位置查看和下载架构文件:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC:精确率/召回率 (PR) 曲线下的面积,亦称为平均精度。此值的范围在 0 到 1 之间,值越大表示模型质量越高。
- AuROC:接收者操作特征曲线下的面积。此值的范围在 0 到 1 之间,值越大表示模型质量越高。
- 对数损失:模型预测与目标值之间的交叉熵。此值的范围在零到无穷大之间,值越小表示模型质量越高。
- 置信度阈值:用于确定要返回的预测的置信度分数。模型会返回不低于此值的预测。如果提高置信度阈值,精确率会相应地提高,但召回率会降低。Vertex AI 以不同的阈值返回置信度指标,以显示阈值如何影响精确率和召回率。
- 召回率:模型正确预测此类别的预测所占的比例。也称为真正例率。
- 召回率为 1:仅考虑具有最高预测分数且不低于每个样本的置信度阈值的标签时的召回率(真正例率)。
- 精确率:模型生成的正确分类预测所占的比例。
- 精确率为 1:仅考虑具有最高预测分数且不低于每个样本的置信度阈值的标签时的精确率。
- F1 得分:精确率和召回率的调和平均数。F1 是一个很实用的指标,当您希望在精确率和召回率之间取得平衡,而类别分布又不均匀时,该指标会非常有帮助。
- F1 得分为 1:召回率为 1 且精确率为 1 时的调和平均数。
- 混淆矩阵:混淆矩阵显示模型正确预测结果的频率。如果预测结果不正确,矩阵会改为显示模型预测的内容。混淆矩阵可帮助您了解模型“混淆”两个结果的出现位置。
- 真负例计数:模型正确预测负类别的次数。
- 真正例计数:模型正确预测正类别的次数。
- 假负例计数:模型错误预测负类别的次数。
- 假正例计数:模型错误预测正类别的次数。
- 假正例率:不正确预测结果占所有预测结果的比例。
- 假正例率为 1:仅考虑具有最高预测分数且不低于每个样本的置信度阈值的标签时的假正例率。
- 模型特征归因:Vertex AI 显示每个特征对模型的影响程度。这些值是以每个特征的百分比形式提供的:百分比越高,特征对模型训练的影响就越大。应查看此信息,以确保所有最重要的特征对您的数据和业务问题都有所帮助。
回归
您可以从以下 Cloud Storage 位置查看和下载架构文件:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE:平均绝对误差 (MAE) 指的是目标值与预测值之间的平均绝对差。此指标的范围在零到无穷大之间;值越小表示模型质量越高。
- RMSE:均方根误差是目标值与预测值之间的平均平方差的平方根。RMSE 对离群值比 MAE 更敏感,因此如果您担心大的误差,那么 RMSE 可能是一个更有用的评估指标。 与 MAE 类似,值越小表示模型质量越高(0 表示完美的预测模型)。
- RMSLE:均方根对数误差指标与 RMSE 类似,不同的是它使用预测值和实际值加 1 的自然对数。RMSLE 对预测不足的罚分比过度预测更重。如果您不希望对大预测值误差的罚分比对小预测值的更重,则此指标也非常适合您的需求。此指标的范围在零到无穷大之间;值越小表示模型质量越高。只有当所有标签值和预测值均为非负值时,才会返回 RMSLE 评估指标。
- r^2:r 平方 (r^2) 是标签值与预测值之间的皮尔逊相关系数的平方,该指标的范围介于 0 到 1 之间。值越大,表示越接近回归线。
-
MAPE:平均绝对百分比误差 (MAPE) 指的是标签与预测值之间的平均绝对百分比差。该指标的范围介于 0 到无穷大之间;值越低表示模型质量越高。
如果目标列包含任何为 0 的值,则 MAPE 不会显示。在这种情况下,MAPE 未经定义。 - 模型特征归因:Vertex AI 显示每个特征对模型的影响程度。这些值是以每个特征的百分比形式提供的:百分比越高,特征对模型训练的影响就越大。应查看此信息,以确保所有最重要的特征对您的数据和业务问题都有所帮助。
预测
您可以从以下 Cloud Storage 位置查看和下载架构文件:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE:平均绝对误差 (MAE) 指的是目标值与预测值之间的平均绝对差。此指标的范围在零到无穷大之间;值越小表示模型质量越高。
- RMSE:均方根误差是目标值与预测值之间的平均平方差的平方根。RMSE 对离群值比 MAE 更敏感,因此如果您担心大的误差,那么 RMSE 可能是一个更有用的评估指标。 与 MAE 类似,值越小表示模型质量越高(0 表示完美的预测模型)。
- RMSLE:均方根对数误差指标与 RMSE 类似,不同的是它使用预测值和实际值加 1 的自然对数。RMSLE 对预测不足的罚分比过度预测更重。如果您不希望对大预测值误差的罚分比对小预测值的更重,则此指标也非常适合您的需求。此指标的范围在零到无穷大之间;值越小表示模型质量越高。只有当所有标签值和预测值均为非负值时,才会返回 RMSLE 评估指标。
- r^2:r 平方 (r^2) 是标签值与预测值之间的皮尔逊相关系数的平方,该指标的范围介于 0 到 1 之间。值越大,表示越接近回归线。
-
MAPE:平均绝对百分比误差 (MAPE) 指的是标签与预测值之间的平均绝对百分比差。该指标的范围介于 0 到无穷大之间;值越低表示模型质量越高。
如果目标列包含任何为 0 的值,则 MAPE 不会显示。在这种情况下,MAPE 未经定义。 - WAPE:加权绝对百分比误差 (WAPE) 指的是模型预测的值与观察到的值之间的总体差值。与 RMSE 相比,WAPE 更侧重于总体差异而非单个差异,而这些差异在很大程度上受较低或间歇性值的影响。值越小表示模型质量越高。
- RMSPE:均方根误差百分比 (RMPSE) 将 RMSE 显示为实际值的百分比,而不是绝对值。值越小表示模型质量越高。
- 分位数:百分比分位数,表示观察到的值将低于预测值的概率。例如,在 0.5 分位数处,观察到的值预计低于预测值的概率为 50%。
- 观察到的分位数:对于给定分位数,显示小于预测值的真实值的百分比。
- 弹力 Pinball 损失:特定分位数的弹力 Pinball 损失。值越低,表示给定分位数处模型的质量越高。
文本
分类
您可以从以下 Cloud Storage 位置查看和下载架构文件:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC:精确率/召回率 (PR) 曲线下的面积,亦称为平均精度。此值的范围在 0 到 1 之间,值越大表示模型质量越高。
- 对数损失:模型预测与目标值之间的交叉熵。此值的范围在零到无穷大之间,值越小表示模型质量越高。
- 置信度阈值:用于确定要返回的预测的置信度分数。模型会返回不低于此值的预测。如果提高置信度阈值,精确率会相应地提高,但召回率会降低。Vertex AI 以不同的阈值返回置信度指标,以显示阈值如何影响精确率和召回率。
- 召回率:模型正确预测此类别的预测所占的比例。也称为真正例率。
- 召回率为 1:仅考虑具有最高预测分数且不低于每个样本的置信度阈值的标签时的召回率(真正例率)。
- 精确率:模型生成的正确分类预测所占的比例。
- 精确率为 1:仅考虑具有最高预测分数且不低于每个样本的置信度阈值的标签时的精确率。
- 混淆矩阵:混淆矩阵显示模型正确预测结果的频率。如果预测结果不正确,矩阵会改为显示模型预测的内容。混淆矩阵可帮助您了解模型“混淆”两个结果的出现位置。
- F1 得分:精确率和召回率的调和平均数。F1 是一个很实用的指标,当您希望在精确率和召回率之间取得平衡,而类别分布又不均匀时,该指标会非常有帮助。
- F1 得分为 1:召回率为 1 且精确率为 1 时的调和平均数。
视频
分类
您可以从以下 Cloud Storage 位置查看和下载架构文件:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC:精确率/召回率 (PR) 曲线下的面积,亦称为平均精度。此值的范围在 0 到 1 之间,值越大表示模型质量越高。
- 置信度阈值:用于确定要返回的预测的置信度分数。模型会返回不低于此值的预测。如果提高置信度阈值,精确率会相应地提高,但召回率会降低。Vertex AI 以不同的阈值返回置信度指标,以显示阈值如何影响精确率和召回率。
- 召回率:模型正确预测此类别的预测所占的比例。也称为真正例率。
- 精确率:模型生成的正确分类预测所占的比例。
- 混淆矩阵:混淆矩阵显示模型正确预测结果的频率。如果预测结果不正确,矩阵会改为显示模型预测的内容。混淆矩阵可帮助您了解模型“混淆”两个结果的出现位置。
- F1 得分:精确率和召回率的调和平均数。F1 是一个很实用的指标,当您希望在精确率和召回率之间取得平衡,而类别分布又不均匀时,该指标会非常有帮助。
笔记本教程
AutoML:表格
AutoML:文本
AutoML:视频
自定义训练:表格
Vertex AI Model Registry
后续步骤
- 了解如何使用 Vertex AI 执行模型评估。