模型准备概览

如果您已设置实例并准备好了必要的数据集,本页面会引导您完成准备 AML AI 模型的步骤。

阶段概览

准备模型的过程分为以下三个阶段:

完成上述阶段且模型性能符合您的需求后,请参阅生成风险得分和可解释性为模型和风险治理做好准备部分中的指南。

准备工作

在开始之前,您需要做好以下准备:

数据集要求

如需有关数据模型和架构的详细指南,请参阅为 AML AI 准备数据下的页面。本部分介绍如何确保在引擎调优、训练和评估中使用的数据集协同工作。

数据集时间范围

了解数据范围和时长中介绍了每项操作的数据集最短时间范围。 总而言之,根据表的情况,除了至少 18 个月的核心时间范围之外,还需要 0 到 24 个月的回溯期。

例如,对于引擎调整,Transaction 表应至少涵盖 42 个月(核心时间窗口期为 18 个月,回溯期为 24 个月)。

配置引擎、训练和评估(回测)可以使用单个数据集完成;请参阅下图。为了避免过拟合,为了确保良好的生产性能,您应该使用不相交的核心时间窗口(即创建回测结果),该窗口期比训练核心时间窗口(即创建模型)新近。

用于调整、训练和回测的数据集时间范围

数据集一致性

在引擎调整、训练和评估阶段使用不同的数据集时,请确保数据集的填充方式和填充方式保持一致。这对 AML 模型的稳定性和性能非常重要。

同样,若要获得较高的风险得分,则使用模型创建预测结果的数据集应与用于训练该模型的数据集一致。

具体而言,请确保以下几点:

  • 填充每个字段需使用相同的逻辑。更改用于填充字段的逻辑可能会导致模型训练和预测或评估之间的特征偏差。
  • 系统会填充同一选择的推荐字段。例如,移除在模型训练期间填充的字段可能会导致模型依赖的特征在评估或预测期间出现偏差或缺失。
  • 提供值时所使用的逻辑相同。PartySupplementaryData 表格中,相同的逻辑用于为每个 party_supplementary_data_id 字段提供值。

    • 使用相同的数据,但使用不同的 party_supplementary_data_id 值,会导致模型错误使用数据。例如,某个特定字段在 PartySupplementaryData 表中对一个数据集使用 ID 5,然后在另一个数据集中使用 ID 7
    • 移除模型所依赖的 party_supplementary_data_id 值可能会产生不可预知的影响。例如,ID 3 用在一个数据集的 PartySupplementaryData 表中,但用在另一个数据集。

现在,您有了一个数据集,可以用于引擎调优、训练和评估了。请注意,模型操作可能需要数十个小时。如需了解如何检查操作是仍在运行还是已完成(失败或成功),请参阅管理长时间运行的操作