如果您已设置实例并准备好了必要的数据集,本页面会引导您完成准备 AML AI 模型的步骤。
阶段概览
准备模型的过程分为以下三个阶段:
第 1 阶段:配置引擎,包括选择超参数的来源:
- 调整:自动调整超参数
- 继承:从使用同一调参版本中的早期引擎版本创建的先前引擎配置中继承超参数。 此设置可让您避免在每次采用新的模型引擎版本时进行重新调整。
创建引擎配置会将调整或继承的结果存储在 EngineConfig 资源中。
第 2 阶段:生成模型
第 3 阶段:评估模型
创建回测结果会评估模型在指定月份集的性能,并将摘要结果存储在 BacktestResult 资源中。(可选)通过创建预测结果,您可以评估模型的每方输出。
完成上述阶段且模型性能符合您的需求后,请参阅生成风险得分和可解释性和为模型和风险治理做好准备部分中的指南。
准备工作
在开始之前,您需要做好以下准备:
数据集要求
如需有关数据模型和架构的详细指南,请参阅为 AML AI 准备数据下的页面。本部分介绍如何确保在引擎调优、训练和评估中使用的数据集协同工作。
数据集时间范围
了解数据范围和时长中介绍了每项操作的数据集最短时间范围。 总而言之,根据表的情况,除了至少 18 个月的核心时间范围之外,还需要 0 到 24 个月的回溯期。
例如,对于引擎调整,Transaction 表应至少涵盖 42 个月(核心时间窗口期为 18 个月,回溯期为 24 个月)。
配置引擎、训练和评估(回测)可以使用单个数据集完成;请参阅下图。为了避免过拟合,为了确保良好的生产性能,您应该使用不相交的核心时间窗口(即创建回测结果),该窗口期比训练核心时间窗口(即创建模型)新近。
数据集一致性
在引擎调整、训练和评估阶段使用不同的数据集时,请确保数据集的填充方式和填充方式保持一致。这对 AML 模型的稳定性和性能非常重要。
同样,若要获得较高的风险得分,则使用模型创建预测结果的数据集应与用于训练该模型的数据集一致。
具体而言,请确保以下几点:
- 填充每个字段需使用相同的逻辑。更改用于填充字段的逻辑可能会导致模型训练和预测或评估之间的特征偏差。
- 系统会填充同一选择的推荐字段。例如,移除在模型训练期间填充的字段可能会导致模型依赖的特征在评估或预测期间出现偏差或缺失。
提供值时所使用的逻辑相同。在 PartySupplementaryData 表格中,相同的逻辑用于为每个
party_supplementary_data_id
字段提供值。- 使用相同的数据,但使用不同的
party_supplementary_data_id
值,会导致模型错误使用数据。例如,某个特定字段在 PartySupplementaryData 表中对一个数据集使用 ID5
,然后在另一个数据集中使用 ID7
。 - 移除模型所依赖的
party_supplementary_data_id
值可能会产生不可预知的影响。例如,ID3
用在一个数据集的 PartySupplementaryData 表中,但用在另一个数据集。
- 使用相同的数据,但使用不同的
现在,您有了一个数据集,可以用于引擎调优、训练和评估了。请注意,模型操作可能需要数十个小时。如需了解如何检查操作是仍在运行还是已完成(失败或成功),请参阅管理长时间运行的操作。