生成模型

本页面简要介绍了模型训练背后的概念。

何时训练或重新训练

AML AI 会在创建模型资源的过程中训练模型。您必须先训练模型,然后才能对其进行评估(即回测)或用于生成预测结果。

为了获得最佳性能并使模型保持最新状态,请考虑每月重新训练。不过,指定引擎版本支持在较新的次要引擎版本发布后 12 个月内生成预测结果。

训练方法

如需训练模型(即创建模型),请参阅创建和管理模型

具体而言,您需要选择以下选项:

  • 用于训练的数据

    请在数据集的日期范围内指定数据集和结束时间。

    训练会根据截至所选结束时间所在月份的完整日历月使用标签和功能。如需了解详情,请参阅数据集时间范围

  • 使用一致的数据集创建的引擎配置

    请参阅配置引擎

训练输出

训练会生成模型资源,该资源可用于执行以下操作:

  • 创建回测结果,用于根据当前已知的真正例评估模型性能
  • 创建预测结果,在您准备好开始审核是否可能洗钱的新支持请求时使用

模型元数据包含以下指标。特别是,此指标会显示数据集支持的特征系列(在引擎调整、训练、评估和预测之间)的所有大幅更改。

指标名称 指标说明 指标值示例
缺失

每个功能系列中所有特征的缺失值所占百分比。

理想情况下,所有 AML AI 特征系列的缺失值都应接近于 0。当这些功能系列的底层数据无法集成时,可能会发生例外情况。

如果此值在调整、训练、评估和预测之间出现任何特征系列的显著变化,则可能表示所用数据集存在不一致。


{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}

模型元数据不包含测试集中的召回指标。如需生成特定时间段(例如测试集)的召回率测量值,请参阅评估模型