本页面简要介绍了模型训练背后的概念。AML AI model 资源表示可用于生成风险的经过训练的模型 得分和可解释性。
何时训练或重新训练
AML AI 会在创建模型资源的过程中训练模型。模型必须先经过训练,然后才能进行评估(即回测)或用于生成预测结果。
为了获得最佳性能并保持模型最新,请考虑 再训练一次。不过,指定的引擎版本支持 预测出 12 个月的预测结果, 较新的次要引擎版本的发布。
如何训练
如需训练模型(即创建模型),请参阅 创建和管理模型。
具体而言,您需要选择以下各项:
用于训练的数据:
指定数据集以及数据集日期范围内的结束时间。
训练会根据截至所选结束时间(但不包括该时间)的完整日历月来使用标签和特征。如需了解详情,请参阅数据集时间范围。
使用一致的数据集创建的引擎配置:
请参阅配置引擎。
训练输出
训练会生成模型资源,可用于执行以下操作:
- 创建回测结果,用于使用当前已知的真正例来评估模型性能
- 创建预测结果,以便在准备就绪后使用 审核涉嫌洗钱的新案例
模型元数据包含 missingness
指标,可用于评估数据集一致性(例如,通过比较不同操作中特征族的缺失值)
指标名称 | 指标说明 | 指标值示例 |
---|---|---|
缺失 |
每个地图项族中所有地图项的缺失值所占的比例。 理想情况下,所有 AML AI 功能系列都应具有 缺失值接近于 0。如果这些功能族的基础数据无法集成,则可能会出现例外情况。 在调优、 训练、评估和预测可能表明 使用的数据集。 |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "missingnessValue": 0.00, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "missingnessValue": 0.45, }, ], } |
重要性 |
显示特征系列对模型重要程度的指标。值越高,表示在模型中对特征系列的利用越重要。在模型中未使用的特征族的重要性为零。 在确定针对家庭偏差结果采取行动的优先级时,可以使用重要性值。例如,对于对模型更重要的系列,相同的偏差值更需要立即解决。 |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "importanceValue": 459761000000, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "importanceValue": 27492, }, ], } |
模型元数据不包含测试集中的召回率指标。要生成 召回特定时间段(例如测试集)的测量结果,请参阅 评估模型。