评估模型公平性

评估模型公平性以避免长期存在的偏见和歧视至关重要。本页面重点介绍了 AML 风险评分模型中公平性评估的重要性,深入分析了几率相等的应用(作为一个示例衡量方式),并提供了缓解措施的潜在途径。

相关性

应评估模型公平性的多种原因,包括:

  • 制造或放大负面社会偏见和危害:若要避免基于个人受众特征(例如性别、种族或年龄)歧视个体,公平性至关重要。
  • 法规遵从:银行必须遵守法律和道德标准,包括反歧视法律法规。
  • 维护信任:AML 风险评分模型的公平性有助于保持客户信任,并提升银行的积极声誉。

如何计算模型公平性

您可以通过多种方法评估机器学习中的公平性(请参阅常规最佳实践)。我们建议考虑几率相等以评估模型公平性。在此情况下,几率均等用于衡量该模型是否在风险得分方面为来自不同受众特征群体的各方提供同等的对待。

如需计算几率相等性,请执行以下操作:

  • 定义要测试模型公平性的受保护群体:
    • 您的银行通常会针对受保护类别实施模型治理。其中可能包括性别、种族、分桶年龄和其他类别。
    • Party 表格中,我们建议使用的字段带有备注,注明“通常也用于公平性评估”。
  • 对于每个受保护的类别,计算以下指标:

    • 真正例率 (TPR):根据模型分配的风险评分,在真正高风险人群中被正确归类为高风险的个人所占的比例。

      假负例率 (FNR) 为 (1 - TPR)。这是衡量模型错误地错过特定组目标的频率的另一种方法。

    • 假正例率 (FPR):根据模型分配的风险评分,误分类为高风险的个人所占的比例,实际为低风险的个人。

      您可以使用此 SQL 脚本模板进行计算,并根据需要进行公平性分析的特定敏感维度进行调整。

  • 比较不同受众特征群体的 TPR 和 FPR 值。

计算 TPR 和 FPR 时的重要考虑因素包括:

  • 仔细指定将计算 TPR 和 FPR 的完整示例集;例如,在特定日期 d 对一个业务线中的所有相关方统计一次。
  • 仔细说明实际正面示例的定义;例如,出于 AML 相关原因,从日期 d 之后开始的任何系统和调查的任何提醒都会导致触发客户退出流程。
  • 仔细指定要计为正向预测的所有客户;例如,日期 d 的 AML AI 风险得分高于所选风险评分阈值的所有客户,您可以使用该阈值触发提醒。

如何解读结果和缓解方法

特定切片或受众特征群体的假正例率较高意味着,模型更有可能将该群体中的个体错误地分类为高风险,从而导致不必要的调查。这表明,该受众特征群体中的个人被严重标记以进行调查,这可能会导致对实际上并未带来更高风险的个人的审查加剧或不便。

特定切片或受众特征群体的真正例率较低,表示模型在将该群体中的个体正确分类为高风险方面效率较低,从而导致假负例率较高。这表明,与其他群体相比,该受众特征群体中应被标记以接受调查的个人更有可能被模型遗漏或忽略。

在模型风险治理流程中,应考虑 FPR 和 TPR 之间的差异,以及何时进一步调查这些差异的阈值。如果您确定风险需要进一步调查,则可以考虑以下可能的根本原因和缓解措施。

潜在根本原因

以下列表概述了受众特征群体之间的假正例率和真正例率差异的潜在根本原因:

  • 正面示例不足:您没有找到足够多的此类客户(正面调查或提醒不足)。您可能没有进行充分的调查,或者此类客户的风险并不频繁。
  • 许多正当的正面示例都没有正当理由:您检测到了防御性可疑活动报告 (SAR) 偏差或客户退出偏差对特定客户群组。
  • 示例总数不足:您的客户群中没有足够的此类客户。

数据质量和模型生成的其他方面也可能影响公平性。

缓解选项

以下列表概述了上一部分针对根本原因的缓解选项:

  • 考虑将调查员能力重定向到 TPR 和 / 或 FPR 较低的客户群组,以便将来重新平衡这些值
  • 查看调查流程和历史调查,了解 FPR 或 TPR 有显著差异的切片的偏差结果
  • 对调查结果进行随机,以获取更多正例样本
  • 查看您的方的补充数据(请参阅补充数据)。请考虑移除与敏感类别高度相关的数据,并添加可表示基本(无偏见)风险因素的数据。例如,假设模型提醒集中在几个特定的邮政编码中。潜在风险因素可能是,该地区集中了大量现金密集型业务,而不是地理区域本身。

不建议执行以下操作:

  • 移除特定客户群组的参与方或风险案例事件,以重新平衡 FPR 或 TPR(实际上是抽样不足)。由于 AML AI 数据和功能的联网性质,这可能会对模型行为和性能产生不可预测的影响。

如果您仍然发现模型风险治理在公平性方面遭到阻止,我们建议您继续使用当前的引擎版本或数据集,并与支持团队联系以获得更多指导。