模型准备概览

本页面将引导您完成准备 AML AI 的步骤 模型,假设您已经设置了实例,并准备好了 数据集。

阶段概览

模型准备过程分为以下三个阶段:

完成前面的阶段后,模型性能达到 请参阅生成风险得分和可解释性为模型和风险治理做好准备

准备工作

在开始之前,您需要做好以下准备:

数据集要求

有关数据模型和架构的详细指南, 为 AML AI 准备数据。本部分介绍了如何确保在引擎调优、训练和评估中使用的多个数据集能够协同工作。

数据集时间范围

用于调整、训练、回测和预测操作的每个数据集都应包含截至 API 调用中指定的 end_time 之前的最后一个完整日历月的最后一天结束的时间范围内的有效数据。此 此时间范围取决于表格、引擎版本和操作。最低 了解数据范围和时长一文详细介绍了时间范围。

例如,对于使用 v004.004 引擎版本的引擎调整,事务处理 应至少涵盖 30 个月的数据。

您可以使用单个数据集完成引擎配置、训练和评估(回测);请参阅下图。为了确保制作顺利 您应确保用于衡量效果的时间段 评估(即创建回测结果)所用的时间晚于 训练(即创建模型)。

例如:如果您要使用 3 个时间段进行回测,并使用截至 2024 年 2 月底的时间段进行训练(即结束时间为 2024 年 3 月初),则可以使用截至 2024 年 5 月底的时间段进行回测(即结束时间为 2024 年 6 月初)。

用于调优、训练和回测的数据集时间范围

数据集一致性

在为引擎调优、训练和评估阶段使用不同的数据集时,请确保数据集在填充哪些字段以及如何填充这些字段方面保持一致。这对于 AML 模型的稳定性和性能至关重要。

同样,对于较高的风险得分, 使用模型创建预测结果的数据集应该与 用于训练该模型的数据集。

具体而言,请确保:

  • 每个字段使用相同的逻辑填充。更改用于填充字段的逻辑可能会在模型训练和预测或评估之间引入特征偏差。
  • 系统会填充相同的“推荐”字段。例如: 移除在模型训练期间填充的字段可能会导致特征 模型在评估期间所依赖的偏差或缺失值, 预测。
  • 提供值时也遵循相同的逻辑。PartySupplementaryData 表中显示,则使用相同的逻辑 为每个 party_supplementary_data_id 字段提供值。

    • 使用相同的数据,但使用的 party_supplementary_data_id 不同 值会导致模型不正确地使用数据。例如, 在5 PartySupplementaryData 表,然后稍后 在另一个数据集中使用了 ID 7
    • 移除模型依赖的 party_supplementary_data_id 值 可能会产生不可预测的影响。例如,ID 3 用于 一个数据集内的 PartySupplementaryData 表,但 另一个数据集省略。

现在,您已拥有一个可用于引擎调优、训练和评估的数据集。注意事项 模型操作可能需要数十小时。如需了解如何检查操作是否仍在运行或已完成(失败或成功),请参阅管理长时间运行的操作