モデルの公平性を評価する

モデルのバイアスや偏見を避けるために、モデルの公平性を評価することが重要です。このページでは、AML リスクスコアリング モデルにおける公平性の評価の重要性に焦点を当て、オッズの等価性の適用に関する分析情報(一例として測定)と、緩和策の可能性を提示します。

関連性

モデルの公平性を評価する理由はいくつかあります。

  • 負の社会バイアスや損害を生み出す、または増幅させる: モデルの公平性は、性別、人種、年齢などのユーザー層属性に基づく個人に対する差別を防ぐために不可欠です。
  • 規制遵守: 銀行は、差別防止の法律や規制など、法的および倫理的な基準を遵守する必要があります。
  • 信頼の維持: AML リスク評価モデルの公平性は、お客様の信頼を維持し、銀行に対するポジティブな評判を促進するのに役立ちます。

モデルの公平性を計算する方法

機械学習で公平性を評価するには、いくつかの方法があります(一般的なベスト プラクティスをご覧ください)。 モデルの公平性を評価するには、オッズの等価性を検討することをおすすめします。ここで、オッズの等価性は、モデルが、リスクスコアに関して異なるユーザー属性グループの当事者に対して同等に扱われるかどうかを測定します。

オッズの等価性を計算するには、次のようにします。

  • モデルの公平性をテストする保護されたグループを定義します。
    • 通常、銀行は保護対象カテゴリにモデル ガバナンスを実装しています。これには、性別、人種、年齢の範囲などのカテゴリが含まれます。
    • Party テーブルで、使用を推奨するフィールドに「通常、公平性の評価にも使用されます」というメモが表示されます。
  • 保護対象カテゴリごとに、次の指標を計算します。

    • 真陽性率(TPR): モデルによって割り当てられたリスクスコアに基づいて、実際に高リスクである個人のうち、高リスクとして正しく分類された個人の割合。

      偽陰性率(FNR)は(1 - TPR)です。これは、モデルが特定のグループのターゲットを誤って見逃す頻度を測定するもう 1 つの方法です。

    • 偽陽性率(FPR): モデルによって割り当てられたリスクスコアに基づいて、実際には低リスクである個人のうち、高リスクとして誤って分類された個人の割合。

      この SQL スクリプト テンプレートを使用して、公平性分析が必要な特定の機密項目に合わせて必要に応じて調整し、計算を行うことができます。

  • さまざまなユーザー属性グループの TPR 値と FPR 値を比較します。

TPR と FPR の計算における重要な考慮事項は次のとおりです。

  • TPR と FPR を計算するサンプルの完全なセットを慎重に指定します。たとえば、1 つの事業部門内のすべての関係者を特定の日付 d に 1 回カウントします。
  • 実際にポジティブなサンプルの定義を慎重に指定します。たとえば、日付 d 以降に始まる任意のシステムからのアラートと調査の結果、AML 関連の理由でお客様の終了プロセスがトリガーされた当事者などです。
  • ポジティブ予測としてカウントされる対象を慎重に指定します。たとえば、日付 d に関する AML AI リスクスコアを持つすべてのお客様が、選択したリスクスコアしきい値を上回っている場合、アラートのトリガーに使用します。

結果の解釈方法と緩和アプローチ

特定のスライスまたはユーザー属性グループの偽陽性率が高い場合、モデルがそのグループに属する個人を誤って高リスクとして分類する可能性が高いことを意味し、不要な調査につながります。これは、そのゆーザー属性グループの個人が調査のために不均衡にフラグ付けされており、実際にはより高いリスクをもたらさない個人に対して、より細かい精査や不便が生じる可能性があることを示しています。

特定のスライスまたはユーザー属性グループの真陽性率が低い場合、モデルがそのグループに属する個人を高リスクとして正しく分類する効果が小さいことを意味し、結果として擬陰性率が高くなります。これは、調査のためにフラグ付けされるべきそのユーザー属性グループの個人が、他のグループと比較して、モデルによって欠落または見落とされる可能性が高いことを示しています。

FPR と TPR の差異、およびさらに調査すべき場合のしきい値は、モデルのリスク ガバナンス プロセスで考慮する必要があります。リスクがさらに調査に値すると判断した場合は、次の考えられる根本原因と緩和策を検討してください。

考えられる根本原因

次のリストに、ユーザー属性グループ間での偽陽性率と真陽性率の差異の潜在的な根本原因を示します。

  • 不十分なポジティブ サンプル: この種の顧客を十分に把握していません(ポジティブな調査やアラートが十分ではありません)。十分な調査が行われていないか、このような顧客にはそれほどリスクはありません。
  • 適切に正当化されない多くのポジティブ サンプル: 特定の顧客グループに対する防御的なアクティビティ レポート(SAR)のバイアスや、お客様の離脱のバイアスを検出します。
  • 不十分な合計サンプル: 顧客ベースにこのタイプの顧客が不足しています。

データ品質やモデル生成の他の側面も公平性に影響する可能性があります。

緩和策のオプション

次のリストに、前のセクションの根本原因の緩和オプションの概要を示します。

  • 今後これらの値を再調整するために、調査者のキャパシティを TPR が高い、または FPR が低いお客様グループにリダイレクトすることを検討する
  • FPR または TPR に大きな差異があるスライスのバイアスのある結果について、調査プロセスと過去の調査を確認する
  • 調査をランダム化してポジティブ サンプルをより多く取得する
  • 当事者の補足データを確認します(補足データを参照)。機密性の高いカテゴリと強く関連するデータを削除し、根本的な(偏見のない)リスク要因を示すデータを追加することを検討してください。たとえば、モデルのアラートが特定の郵便番号に集中している場合を考えてみましょう。根本的なリスク要因は、地域自体ではなく、現金を大量に使用するビジネスが集中していることです。

以下はおすすめしません

  • FPR または TPR を再調整するために、特定の顧客グループの当事者やリスクケース イベントを削除します(実質的にアンダーサンプリング)。AML AI のデータと特徴はネットワーク化されているため、モデルの動作やパフォーマンスに予測できない影響を与える可能性があります。

モデルリスク ガバナンスが公平性に関してブロックされていると思われる場合は、現在のエンジン バージョンまたはデータセットを引き続き使用し、サポートに問い合わせることをおすすめします。