本页将引导您完成准备 AML AI 模型的步骤,假设您已设置实例并准备好必要的数据集。
阶段概览
准备模型的过程分为以下三个阶段:
第 1 阶段:配置引擎,包括选择超参数的来源:
- 调优:自动调优超参数
- 继承:从同一调优版本中使用较低引擎版本创建的先前引擎配置继承超参数。通过此设置,您可以避免每次采用新模型引擎版本时都重新调整。
创建引擎配置会将调优或继承的结果存储在 EngineConfig 资源中。
第 2 阶段: 生成模型
第 3 阶段: 评估模型
创建回测结果会评估指定月份的模型性能,并将摘要结果存储在 BacktestResult 资源中。(可选)通过创建预测结果,您可以评估模型的每个党派输出。
完成前面的阶段后,如果模型的性能符合您的需求,请参阅生成风险评分和可解释性和为模型和风险治理做好准备部分中的指南。
准备工作
在开始之前,您需要完成以下操作:
数据集要求
如需有关数据模型和架构的详细指南,请参阅为 AML AI 准备数据下的页面。本部分介绍了如何确保在引擎调优、训练和评估中使用的多个数据集能够协同工作。
数据集时间范围
用于调整、训练、回测和预测操作的每个数据集都应包含截至 API 调用中指定的 end_time 之前的最后一个完整日历月的最后一天结束的时间范围内的有效数据。此时间范围的长度取决于表、引擎版本和操作。了解数据范围和时长中详细介绍了最短时间范围。
例如,对于使用 v004.004 引擎版本的引擎优化,事务表应涵盖至少 30 个月的数据。
您可以使用单个数据集完成引擎配置、训练和评估(回测);请参阅下图。为避免过度拟合,从而确保良好的生产环境效果,您应确保用于评估(即创建回测结果)的时间段在用于训练(即创建模型)的时间段之后。
例如:如果您要使用 3 个时间段进行回测,并使用截至 2024 年 2 月底的时间段进行训练(即结束时间为 2024 年 3 月初),则可以使用截至 2024 年 5 月底的时间段进行回测(即结束时间为 2024 年 6 月初)。
数据集一致性
在为引擎调优、训练和评估阶段使用不同的数据集时,请确保这些数据集在填充哪些字段以及如何填充这些字段方面保持一致。这对 AML 模型的稳定性和性能至关重要。
同样,为了获得高质量的风险评分,用于使用模型生成预测结果的数据集应与用于训练该模型的数据集一致。
具体而言,请确保:
- 系统会使用相同的逻辑来填充每个字段。更改用于填充字段的逻辑可能会在模型训练和预测或评估之间引入特征偏差。
- 系统会填充相同的“推荐”字段。例如,移除在模型训练期间填充的字段可能会导致模型在评估或预测期间依赖的特征出现偏差或缺失。
提供值时也使用相同的逻辑。在 PartySupplementaryData 表中,系统使用相同的逻辑为每个
party_supplementary_data_id
字段提供值。- 使用相同的数据但具有不同的
party_supplementary_data_id
值会导致模型错误地使用数据。例如,某个字段在一个数据集的 PartySupplementaryData 表中使用 ID5
,但在另一个数据集中使用 ID7
。 - 移除模型依赖的
party_supplementary_data_id
值可能会产生不可预知的影响。例如,ID3
在一个数据集中的 PartySupplementaryData 表中使用,但在另一个数据集中被省略。
- 使用相同的数据但具有不同的
现在,您已经有了可以用于引擎调优、训练和评估的数据集。请注意,模型操作可能需要数十小时。如需了解如何检查操作是否仍在运行或已完成(失败或成功),请参阅管理长时间运行的操作。