模型准备概览

本页面将引导您完成准备 AML AI 模型的步骤(假设您已设置了一个实例并准备好了必要的数据集)。

阶段概览

准备模型的过程分为以下三个阶段:

完成上述阶段并且模型性能符合您的需求后,请参阅生成风险评分和可解释性以及为模型和风险治理做好准备部分中的指南。

须知事项

在开始之前,您需要完成以下操作:

数据集要求

如需有关数据模型和架构的详细指导,请参阅为 AML AI 准备数据下的页面。本部分介绍如何确保引擎调整、训练和评估中使用的数据集能够很好地协同工作。

数据集时间范围

了解数据范围和时长中介绍了每项操作的数据集最小时间范围。总而言之,需要 0 到 24 个月的回溯期,具体取决于表格,除至少 18 个月的核心时间范围外。

例如,对于引擎调整,事务表应至少涵盖 42 个月(18 个月核心时间范围和 24 个月作为回溯期)。

配置引擎、训练和评估(回测)可以使用单个数据集完成;如下图所示。为确保通过避免过拟合确保良好的生产性能,您应该使用不相交的核心时间范围(即创建回测结果),该时间范围比训练(即创建模型)的核心时间范围更近。

用于调整、训练和回测的数据集时间范围

数据集一致性

在引擎调整、训练和评估阶段使用不同的数据集时,请确保数据集的填充和填充方式保持一致。这对于 AML 模型的稳定性和性能非常重要。

同样,要获得较高的风险得分,使用模型创建预测结果的数据集应与用于训练该模型的数据集一致。

具体而言,请确保以下几点:

  • 填充每个字段时将使用相同的逻辑。更改用于填充字段的逻辑可能会导致模型训练与预测或评估之间的特征偏差。
  • 系统会填充同一选择的推荐字段。例如,移除在模型训练期间填充的字段可能会导致模型在评估或预测期间依赖的特征出现偏差或缺失。
  • 提供值时所使用的逻辑是相同的。在 PartySupplementaryData 表格中,相同的逻辑用于为每个 party_supplementary_data_id 字段提供值。

    • 使用相同的数据,但使用不同的 party_supplementary_data_id 值会导致模型错误地使用数据。例如,对于一个数据集,特定字段在 PartySupplementaryData 表中使用 ID 5,但在另一个数据集中使用 ID 7
    • 移除模型依赖的 party_supplementary_data_id 值可能会产生不可预测的影响。例如,ID 3 用在一个数据集的 PartySupplementaryData 表中,但从其他数据集内省略。

现在,您有一个数据集可用于引擎调整、训练和评估了。请注意,模型操作可能需要数十个小时。如需了解如何检查操作是仍在运行还是已完成(失败还是成功),请参阅管理长时间运行的操作