查看评估指标

数据标签服务在运行评估作业时会生成一组评估指标,这些指标会因机器学习模型的具体情况而有所不同。本指南介绍了不同类型的评估指标及其查看方式。

准备工作

开始之前,先创建评估作业并等待它首次运行。默认情况下,评估作业每天的运行时间为世界协调时间 (UTC) 上午 10 点。

作业运行时,它首先会向人工审核者发送数据以获得供标准答案标签(如果您已启用此选项),然后计算评估指标。由于人工添加标签需要一些时间,如果您的作业取样了大量数据,您可能需要等待超过一天的时间才能看到第一个评估指标。

比较不同模型间的平均精度均值

AI Platform Prediction 中,多个模型版本可以分组到一个模型资源中。一个模型中的每个模型版本应执行相同的任务,但每个模型版本的训练方式可能不同。

如果一个模型包含多个模型版本并且为每个版本都创建了评估作业,您可以查看比较模型版本随时间变化的平均精度均值的图表:

  1. 打开 Google Cloud 控制台中的 AI Platform 模型 (AI Platform models) 页面:

    转到 AI Platform 模型页面

  2. 点击您要比较的模型版本所在的模型的名称。

  3. 点击评估标签页。

此页面上的图表比较每个模型版本随时间变化的平均精度均值。您可以更改该图表的时间间隔。

如果在最近某次运行期间模型版本有任何评估作业发生了错误,您也会在此页面上看到该指标。

查看特定模型版本的指标

如需详细了解评估指标,请查看单个模型版本:

  1. 打开 Google Cloud 控制台中的 AI Platform 模型 (AI Platform models) 页面:

    转到 AI Platform 模型页面

  2. 点击您感兴趣的模型版本所在的模型的名称。

  3. 点击您感兴趣的模型版本的名称。

  4. 点击评估标签页。

与上一部分讨论的比较视图类似,此页面也包含图表,其中显示随时间变化的平均精度均值。图表中还显示了模型版本最近的评估作业运行结果的所有错误。

输入日期字段中输入日期,以便查看单个评估作业运行的指标。您还可以点击所有标签并从下拉列表中选择一个特定标签,以进一步过滤指标。以下部分介绍了您可以查看的单个评估作业运行的指标。

精确率与召回率曲线

精确率与召回率曲线显示在调整分类阈值的情况下机器学习模型的精确率和召回率将如何变化。

混淆矩阵

混淆矩阵显示了所有标准答案标签和预测标签的配对,以便您可以查看机器学习模型将某些标签误认为其他标签的情况。

只有执行分类操作的模型版本才会生成混淆矩阵。

并列比较

如果您的模型版本执行图片分类或文本分类,对于每个预测输入,您都可以查看机器学习模型的预测标签和标准答案标签的并列比较。

如果您的模型版本执行图片对象检测,您可以查看机器学习模型的预测边界框和标准答案边界框的并列比较。将光标悬停在边界框上可查看关联的标签。

后续步骤

了解如何更新、暂停或删除评估作业