生成模型

本页面简要介绍了模型训练背后的概念。

何时训练或重新训练

AML AI 会在创建模型资源的过程中训练模型。您必须先训练模型,然后才能对其进行评估(即回测)或用于生成预测结果。

为了获得最佳性能并保持模型的最新状态,请考虑每月重新训练。不过,给定引擎版本支持在较新的次要引擎版本发布后 12 个月内生成预测结果。

训练方法

如需训练模型(即创建模型),请参阅创建和管理模型

具体而言,您需要选择以下各项:

  • 用于训练的数据

    请指定数据集及其日期范围的结束时间。

    训练使用基于完整日历月(但不包括所选结束时间的月份)的标签和功能。如需了解详情,请参阅数据集时间范围

  • 使用一致的数据集创建的引擎配置

    请参阅配置引擎

训练输出

训练会生成模型资源,它可用于执行以下操作:

  • 创建回测结果,用于使用当前已知的真正例来评估模型性能
  • 创建预测结果,在您准备好开始查看可能存在洗钱的新案例时,使用预测结果

模型元数据包含以下指标。特别是,该指标会显示数据集支持的特征系列的任何重大更改(在引擎调优、训练、评估和预测之间)。

指标名称 指标说明 指标值示例
缺失

每个功能系列中所有特征的缺失值所占的比例。

理想情况下,所有 AML AI 功能系列的缺失值都应接近 0。当这些功能系列的基础数据无法集成时,可能会出现例外情况。

如果此值在调优、训练、评估和预测期间发生任何特征系列的显著变化,则可能表示所用数据集存在不一致。


{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
重要性

显示特征系列对模型重要性的指标。值越高,表示模型中特征系列的使用率越高。模型中未使用的特征系列的重要性为零。

在根据族群偏差结果确定优先处理顺序时,可以使用重要性值。例如,对于模型的重要性较高的系列,相同的偏差值更急需解决。


{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "importanceValue": 459761000000,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "importanceValue": 27492,
    },
  ],
}

模型元数据不包含测试集的召回率指标。如需生成特定时间段(例如测试集)的召回率测量结果,请参阅评估模型