モデルの評価

バックテストの結果では、指定された期間でのモデルのパフォーマンスの概要を確認できます。これを使用すると、トレーニングとは異なる期間でモデルのパフォーマンスを測定したり、時間の経過に伴うパフォーマンスの低下をチェックしたりできます。

バックテストの方法

BacktestResult リソースを作成するには、バックテスト結果の作成と管理をご覧ください。

特に、次の項目を選択する必要があります。

  • バックテストに使用するデータ:

    データセットと、データセットの期間内での終了時間を指定します。

    トレーニングでは、選択した終了時間の暦月(ただしその歴月を含まない)までの完全な暦月に基づくラベルと特徴が使用されます。詳細については、データセットの期間をご覧ください。

    バックテストに使用するラベル付きデータの月数(つまりバックテスト期間)を指定します。

  • 一貫性のあるデータセットを使用して作成されたモデル:

    エンジンの構成をご覧ください。

バックテスト期間

backtestPeriods フィールドには、このモデルのパフォーマンス評価で特徴とラベルを使用する連続する歴月を指定します。

バックテスト データには以下が適用されます。

  • 評価に使用される月は、指定された endTime より前の直近の完全な暦月です。たとえば、endTime2023-04-03T23:21:00ZbacktestPeriods5 の場合、次の月が使用されます。: 2023-03、2023-02、2023-01、2022-12、2022-11。
  • 本番環境の使用に備えてモデルを評価する場合は、バックテストに最新の利用可能なデータを使用してください。
  • バックテスト期間は 3 以上に設定する必要があります。バックテスト期間の 2 か月間は、繰り返しアラートを考慮するために予約され、残りの月は、パフォーマンス評価用のポジティブ ラベルを生成するために使用されます。

  • 過学習のリスクがあるため、トレーニングとバックテストに重複する月を使用することは避けてください。バックテストとトレーニングの終了時間が少なくとも backtestPeriods の間隔であることを確認してください。つまり、次のようになります。

    (バックテスト結果の終了時間の月)>=(モデルの終了時間の月)+ backtestPeriods

必要に応じて、モデルの予測結果を作成し、独自の当事者レベルのモデル パフォーマンスを分析することもできます。

バックテスト出力

バックテスト結果メタデータには、次の指標が含まれます。特に、これらの指標から次のことがわかります。

  • 別の期間のラベルや、さまざまな調査量やリスクスコアのしきい値と比較して、モデルがどのように機能するか

  • データセットでサポートされている特徴ファミリーに対する大きな変更(エンジンの調整、トレーニング、評価、予測の間)

指標名 指標の説明 指標値の例
ObservedRecallValues バックテストに指定されたデータセットで測定された再現率の指標。API には、これらの測定値のうち 20 個が含まれ、異なる動作ポイントで 0(含まれていない)から 2 * partyInvestigationsPerPeriodHint まで均等に分配されます。この API は、最終的な再現率の測定値を partyInvestigationsPerPeriodHint で追加します。

{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "recallValue": 0.85,
      "scoreThreshold": 0.30,
    },
  ],
}
欠損

各特徴ファミリーのすべての特徴の欠損値の割合。

理想的には、すべての AML AI 特徴ファミリーで、欠損が 0 に近いことが推奨されます。これらの特徴ファミリーの基礎となるデータが統合に使用できない場合、例外が発生する可能性があります。

調整、トレーニング、評価、予測の間の特徴ファミリーの値の大幅な変化は、使用されるデータセットに不整合があることを示している可能性があります。


{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
スキュー

トレーニング データセットと予測データセットとの間、またはバックテスト データセットとの間のスキューを示す指標。ファミリー スキューは、特徴ファミリー内の特徴値の分布の変化を示し、そのファミリー内の特徴の重要度によって重み付けされます。最大スキューは、そのファミリー内の特徴の最大スキューを示します。

スキュー値の範囲は、ファミリー内の特徴値の分布に大幅な変化がないことを示す 0 から、最も大きな変化を表す 1 までです。ファミリー スキューまたは最大スキューの値が大きい場合は、データの構造に大きな変化があり、モデルのパフォーマンスに影響する可能性があることを示しています。ファミリー スキューは、ファミリー内の特徴がモデルで使用されない場合、-1 になります。

スキュー値が大きい場合は、次のいずれかを行います。

  • その特徴ファミリーで使用されるデータの変更を調査し(モデル ガバナンスのサポート資料を参照)、入力データの問題を修正する
  • より新しいデータでモデルを再トレーニングする

数か月にわたるスキュー指標の自然な変動の観察に基づいて、ファミリー スキューと最大スキューの値を操作するしきい値を設定する必要があります。


{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}