评估模型公平性至关重要,以免助长偏见和歧视。本页重点介绍了在反洗钱风险评分模型中公平性评估的重要性,深入探讨了机会均等(作为一种示例衡量标准)的应用,并提供了潜在的缓解途径。
相关性
应评估模型公平性的原因有很多,包括:
- 造成或加剧负面的社会偏见和危害:为了防止基于个人的人口统计特征(例如性别、种族或年龄)歧视个人,模型公平性至关重要。
- 法规遵从:银行必须遵守法律和道德标准,包括反歧视法律法规。
- 维护信任:反洗钱风险评分模型的公平性有助于维护客户信任,并提升银行的良好声誉。
如何计算模型公平性
您可以通过多种方式评估机器学习的公平性(请参阅常规最佳实践)。我们建议您考虑赔率平等来评估模型公平性。在这种情况下,赔率平等度衡量的是模型是否会根据风险评分对不同受众特征群体的相关方提供平等的待遇。
如需计算赔率是否相同,请执行以下操作:
- 定义您要针对哪些受保护群体测试模型公平性:
- 银行通常会对受保护类别实施模型治理。这些特征可能包括性别、种族、年龄段和其他类别。
- 在相关方表中,我们建议使用的字段带有“通常也用于公平性评估”的备注。
对于每个受保护类别,请计算以下指标:
真正例率 (TPR):在真正属于高风险的个人中,被正确归类为高风险的个人所占的比例(根据模型分配的风险得分)。
漏报率 (FNR) 为 (1 - TPR)。这是衡量模型针对某个群体错误地未达到目标的频率的另一种方法。
假正例率 (FPR):根据模型分配的风险分数,在实际风险较低的用户中,被错误地归类为高风险的用户所占的比例。
您可以使用此 SQL 脚本模板进行计算,根据需要调整为您需要进行公平性分析的特定敏感维度。
比较不同受众特征群体的真正率和假正率值。
计算 TPR 和 FPR 时的重要注意事项包括:
- 仔细指定要计算 TPR 和 FPR 的完整示例集;例如,在特定日期 d 统计某个业务领域中的所有相关方一次。
- 仔细指定实际正例的定义;例如,如果某方在 d 日之后收到来自任何系统的任何提醒,并且在调查后因与反洗钱相关的原因而触发了客户退出流程,则该方属于实际正例。
- 仔细指定什么是正例预测;例如,所有在 d 这一日期的 AML AI 风险得分高于所选风险得分阈值的客户(您将使用该阈值来触发提醒)。
如何解读结果和缓解方法
如果特定细分受众群或受众特征群体的假正例率较高,则表示模型更有可能错误地将该群体中的个人归类为高风险,从而导致不必要的调查。这表明,系统会不成比例地将该受众群体中的个人列为需要接受调查的对象,这可能会导致实际上风险可能并不高的个人受到更严格的审查或带来不便。
如果特定细分受众群体或受众特征群体的真正例率较低,则表示模型在将该群体中的个人正确分类为高风险时效果不佳,导致假负例率较高。这表示,与其他群体相比,该受众特征群体中应被标记为需要调查的个人更有可能被模型漏掉或忽略。
在模型风险治理流程中,应考虑 FPR 和 TPR 之间的差异,以及何时进一步调查这些差异的阈值。如果您认为风险需要进一步调查,请考虑以下可能的根本原因和缓解措施。
潜在根本原因
下表概述了导致不同受众群体之间假正例率和真正例率存在差异的潜在根本原因:
- 正例不足:您未发现足够多的此类客户(正例调查或提醒不足)。您可能没有进行充分调查,或者此类客户通常不存在风险。
- 许多未得到适当证明的正例:您检测到针对特定客户群体的防御性可疑活动报告 (SAR) 偏差或客户流失偏差。
- 总示例不足:您的客户群中没有足够的此类客户。
数据质量和模型生成的其他方面也可能会影响公平性。
缓解措施
以下列表概述了针对上一部分中所述根本原因的缓解措施选项:
- 考虑将调查员的资源重新分配给 TPR 较高和 / 或 FPR 较低的客户群体,以便日后重新平衡这些值
- 检查调查流程和历史调查,了解 FPR 或 TPR 存在明显差异的 slice 是否存在偏差结果
- 随机进行调查,以获得更多正例
- 查看您的派对附加数据(请参阅附加数据)。考虑移除与敏感类别高度相关的数据,并添加可表达潜在(无偏见)风险因素的数据。例如,假设模型提醒集中在某些特定邮政编码中。潜在风险因素可能是该地区集中了大量需要大量现金的企业,而非该地理区域本身。
不建议执行以下操作:
- 移除特定客户群组的相关方或风险案例事件,以重新平衡 FPR 或 TPR(实际上是抽样不足)。由于 AML AI 数据和特征具有网络化特性,因此这可能会对模型行为和性能产生不可预测的影响。
如果您仍发现模型风险治理因公平性问题而被阻止,我们建议您继续使用当前的引擎版本或数据集,并与支持团队联系以获取更多指导。