模型准备概览

本页面将引导您完成准备 AML AI 的步骤 模型,假设您已经设置了实例,并准备好了 数据集。

阶段概览

模型准备过程分为以下三个阶段:

完成前面的阶段,且模型性能达到 请参阅生成风险得分和可解释性为模型和风险治理做好准备

准备工作

在开始之前,您需要做好以下准备:

数据集要求

有关数据模型和架构的详细指南, 为 AML AI 准备数据。本部分将介绍如何确保数据集 用于引擎调优、训练和评估。

数据集时间范围

每项操作的数据集最小时间范围如下 了解数据范围和时长。 总的来说,回溯期需要 0-24 个月,具体取决于表格, 超过至少 18 个月的核心时间,以涵盖所有 相同的数据集。较短的数据集可用于单个操作; 例如,在重复使用引擎配置时 调整。

例如,对于引擎调整,Transaction 表应 涵盖至少 42 个月(18 个月的核心时间范围,以及 24 个月的 回溯期)。

可以完成引擎配置、训练和评估(回测) 生成单个数据集;请见下图。为了确保制作顺利 您应使用核心时间窗口, 这种评估(即创建回测结果)是不相交的, 训练(即创建模型)的核心时间窗口。

用于调参、训练和回测的数据集时间范围

数据集一致性

使用不同的数据集进行引擎调优、训练和评估时 确保数据集在填充字段和填充方式方面保持一致 填充内容。这对于 AML 模型的稳定性和性能来说非常重要。

同样,对于较高的风险得分, 使用模型创建预测结果的数据集应该与 用于训练该模型的数据集。

具体而言,请确保以下几点:

  • 每个字段使用相同的逻辑填充。更改所用的逻辑 会导致模型训练和 预测或评估。
  • 系统会填充相同的选定推荐字段。例如: 移除在模型训练期间填充的字段可能会导致特征 模型在评估期间所依赖的偏差或缺失值, 预测。
  • 提供值也使用相同的逻辑。PartySupplementaryData 表中显示,则使用相同的逻辑用于 为每个 party_supplementary_data_id 字段提供值。

    • 使用相同的数据,但使用的 party_supplementary_data_id 不同 值会导致模型不正确地使用数据。例如, 在5 PartySupplementaryData 表,然后稍后 在另一个数据集中使用了 ID 7
    • 移除模型依赖的 party_supplementary_data_id 值 可能会产生不可预测的影响。例如,ID 3 用于 一个数据集内的 PartySupplementaryData 表,但 另一个数据集省略。

现在,您已拥有一个可用于引擎调优、训练和评估的数据集。注意事项 模型操作可能需要数十小时。如需了解如何 检查操作是否仍在运行或已完成(失败或成功); 请参阅 管理长时间运行的操作