지속적인 편향 및 차별을 방지하기 위해 모델 공정성을 평가하는 것이 중요합니다. 이 페이지에서는 AML 위험 점수 모델에서 공정성 평가의 중요성에 초점을 맞춥니다. 한 예시로 확률 형평성 적용에 대한 중요한 정보를 제공하고, 완화를 위한 잠재적 경로를 제공합니다.
관련성
모델 공정성을 평가해야 하는 이유는 다음과 같습니다.
- 부정적인 사회적 편견과 해를 야기하거나 증폭합니다. 모델 공정성은 성별, 인종, 연령 같은 인구통계적 특성을 바탕으로 개인에 대한 차별을 방지하는 데 매우 중요합니다.
- 규제 준수: 은행은 차별 금지 법률 및 규정을 포함한 법률 및 윤리적 표준을 준수해야 합니다.
- 신뢰 유지: AML 위험 점수 모델의 공정성은 고객 신뢰를 유지하고 은행에 대한 긍정적인 평판을 높이는 데 도움이 됩니다.
모델 공정성을 계산하는 방법
머신러닝에서 공정성을 평가하는 방법에는 여러 가지가 있습니다(일반 권장사항 참조). 모델 공정성을 평가하려면 확률 형평성을 사용하는 것이 좋습니다. 이 컨텍스트에서 확률 형평성은 모델이 위험 점수에 따라 다른 인구통계 그룹의 당사자에게 동등한 대우를 제공하는지 여부를 측정합니다.
확률 형평성을 계산하려면 다음을 수행하세요.
- 모델 공정성을 테스트할 보호 대상 집단을 정의합니다.
- 은행은 일반적으로 보호된 카테고리에 모델 거버넌스를 적용합니다. 여기에는 성별, 인종, 연령 분류, 기타 카테고리가 포함될 수 있습니다.
- 당사자 테이블에서 사용을 권장하는 필드에는 '일반적으로 공정성 평가에도 사용됨'이라는 메모가 표시됩니다.
각 보호된 카테고리에 대해 다음 측정항목을 계산합니다.
참양성률(TPR): 모델에서 할당한 위험 점수를 기준으로 고위험군에 속한 개인이 고위험으로 올바르게 분류된 비율입니다.
거짓음성률(FNR)은 (1 - TPR)입니다. 이 방법은 모델이 특정 그룹의 타겟을 잘못 누락하는 빈도를 측정하는 또 다른 방법입니다.
거짓양성률(FPR): 모델에서 할당한 위험 점수를 기준으로 실제로 위험성이 낮은 개인 중 고위험으로 잘못 분류된 개인의 비율입니다.
이러한 SQL 스크립트 템플릿을 사용하여 계산을 수행하고 공정성 분석을 수행해야 하는 특정 민감한 측정기준에 맞게 조정할 수 있습니다.
여러 인구통계 그룹의 TPR 및 FPR 값을 비교합니다.
TPR 및 FPR을 계산할 때 중요한 고려사항은 다음과 같습니다.
- TPR 및 FPR이 계산되는 전체 예시 집합을 신중하게 지정합니다. 예를 들어 특정 날짜 d에 한 비즈니스 라인의 모든 당사자를 한 번씩 계산합니다.
- 실제 양성 예시로 정의된 항목을 신중하게 지정합니다. 예를 들어 날짜 d 이후에 시작되는 모든 시스템 및 조사에서 알림을 받은 당사자는 AML 관련 이유로 고객 종료 프로세스를 트리거하게 됩니다.
- 양성 예측으로 집계할 대상을 신중하게 지정합니다. 예를 들어 d 날짜에 대해 AML AI 위험 점수가 선택한 모든 고객이 선택한 위험 점수 임곗값을 초과하므로 알림을 트리거하는 데 사용됩니다.
결과 해석 방법 및 완화 방법
특정 슬라이스 또는 인구통계 그룹에 대한 거짓양성률이 높으면 모델이 해당 그룹에서 개인을 고위험으로 잘못 분류하여 불필요한 조사로 이어질 가능성이 높습니다. 이것은 해당 인구통계 그룹의 개인이 조사 측면에서 불리하게 신고되어 실제로 높은 위험을 야기하지 않는 개인에 대한 면밀한 조사나 불편함을 초래한다는 것을 의미합니다.
특정 슬라이스 또는 인구통계 그룹에 대한 참양성률이 낮으면 모델이 해당 그룹의 개인을 고위험으로 올바르게 분류하는 데 덜 효과적이므로 거짓음성률이 높아집니다. 이는 조사 대상으로 신고되어야 하는 해당 인구통계 그룹의 개인이 다른 그룹에 비해 모델에 의해 누락되거나 간과될 가능성이 높다는 것을 나타냅니다.
FPR 및 TPR의 차이와 추가 조사 시기에 대한 임곗값은 모델 위험 거버넌스 프로세스에서 고려해야 합니다. 위험을 추가 조사해야 한다고 판단하는 경우 고려해야 할 근본 원인 및 완화 방법은 다음과 같습니다.
잠재적 근본 원인
다음 목록은 인구통계 그룹 간 거짓양성률과 참양성률의 불균형에 대한 잠재적인 근본 원인을 설명합니다.
- 부족한 양성 예시: 이러한 유형의 고객을 충분히 파악하지 못했습니다(양성 조사 또는 알림이 충분하지 않음). 조사가 충분하지 않거나 이러한 종류의 고객이 위험하지 않은 경우가 많습니다.
- 절절하게 정당화되지 않은 많은 양성 예시: 특정 고객 그룹에 대한 방어적인 의심스러운 활동 보고서(SAR) 편향 또는 고객 종료 편향을 감지합니다.
- 총 예시 부족: 고객층에 이러한 유형의 고객이 충분하지 않습니다.
데이터 품질 및 모델 생성의 다른 측면도 공정성에 영향을 줄 수 있습니다.
완화 옵션
다음 목록은 이전 섹션의 근본 원인에 대한 완화 옵션을 설명합니다.
- 향후 이러한 값을 재조정하기 위해 조사자 용량을 TPR이 높거나 FPR이 낮은 고객 그룹으로 리디렉션하는 것이 좋습니다.
- FPR 또는 TPR이 크게 다른 슬라이스의 편향된 결과에 대한 조사 프로세스 및 이전 조사를 검토합니다.
- 더 많은 양성 예시를 얻도록 조사를 무작위로 선택합니다.
- 당사자 보조 데이터를 검토합니다(추가 데이터 참조). 민감한 카테고리와 밀접한 상관관계가 있는 데이터를 삭제하고 기본(비편향) 위험 요소를 나타내는 데이터를 추가하는 것이 좋습니다. 예를 들어 모델 알림이 특정 우편번호에 집중된 경우를 가정해 보겠습니다. 근본 위험 요소는 지리적 영역 자체가 아니라 현금 집약적인 비즈니스의 집중일 수 있습니다.
다음은 권장하지 않습니다.
- 특정 고객 그룹의 당사자 또는 위험 사례 이벤트를 삭제하여 FPR 또는 TPR의 불균형을 조정합니다(사실상 언더샘플링). AML AI 데이터와 기능의 네트워크 특성으로 인해 모델 동작 및 성능에 예기치 않은 영향을 미칠 수 있습니다.
공정성으로 인해 모델 위험 거버넌스가 여전히 차단되는 것으로 확인되면 현재 엔진 버전 또는 데이터 세트를 계속 사용하고 추가 지원이 필요하면 지원팀에 문의하는 것이 좋습니다.