生成模型

本页面简要介绍了模型训练背后的概念。AML AI model 资源表示可用于生成风险的经过训练的模型 得分和可解释性。

何时训练或重新训练

AML AI 会在创建模型资源的过程中训练模型。模型必须先经过训练,然后才能进行评估(即回测)或用于生成预测结果。

为了获得最佳性能并保持模型最新,请考虑 再训练一次。不过,指定的引擎版本支持 预测出 12 个月的预测结果, 较新的次要引擎版本的发布。

如何训练

如需训练模型(即创建模型),请参阅 创建和管理模型

具体而言,您需要选择以下各项:

  • 用于训练的数据:

    指定数据集以及数据集日期范围内的结束时间。

    训练会根据截至所选结束时间(但不包括该时间)的完整日历月来使用标签和特征。如需了解详情,请参阅数据集时间范围

  • 使用一致的数据集创建的引擎配置

    请参阅配置引擎

训练输出

训练会生成模型资源,可用于执行以下操作:

  • 创建回测结果,用于使用当前已知的真正例来评估模型性能
  • 创建预测结果,以便在准备就绪后使用 审核涉嫌洗钱的新案例

模型元数据包含 missingness 指标,可用于评估数据集一致性(例如,通过比较不同操作中特征族的缺失值)

指标名称 指标说明 指标值示例
缺失

每个地图项族中所有地图项的缺失值所占的比例。

理想情况下,所有 AML AI 功能系列都应具有 缺失值接近于 0。如果这些功能族的基础数据无法集成,则可能会出现例外情况。

在调优、 训练、评估和预测可能表明 使用的数据集。

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
重要性

显示特征系列对模型重要程度的指标。值越高,表示在模型中对特征系列的利用越重要。在模型中未使用的特征族的重要性为零。

在确定针对家庭偏差结果采取行动的优先级时,可以使用重要性值。例如,对于对模型更重要的系列,相同的偏差值更需要立即解决。

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "importanceValue": 459761000000,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "importanceValue": 27492,
    },
  ],
}

模型元数据不包含测试集中的召回率指标。要生成 召回特定时间段(例如测试集)的测量结果,请参阅 评估模型