このページでは、モデル トレーニングの背後にあるコンセプトについて簡単に説明します。AML AI モデルリソースは、リスクスコアと説明可能性の生成に使用できるトレーニング済みモデルを表します。
トレーニングまたは再トレーニングのタイミング
AML AI は、Model リソースの作成の一環としてモデルをトレーニングします。モデルを評価(つまり、バックテストを行う)する前、または予測結果の生成に使用する前にトレーニングする必要があります。
最適なパフォーマンスを実現し、最新のモデルを維持するには、毎月の再トレーニングを検討してください。ただし、特定のエンジン バージョンは、新しいマイナー エンジン バージョンのリリースから 12 か月間予測結果の生成をサポートします。
トレーニング方法
モデルをトレーニングする(つまり、モデルを作成する)には、モデルを作成して管理するをご覧ください。
特に、以下を選択する必要があります。
トレーニングに使用するデータ:
データセットと、データセットの期間内での終了時間を指定します。
トレーニングでは、選択した終了時間の暦月(ただしその歴月を含まない)までの完全な暦月に基づくラベルと特徴が使用されます。詳細については、データセットの時間範囲をご覧ください。
一貫性のあるデータセットを使用して作成されたエンジン構成:
エンジンを構成するをご覧ください。
トレーニング出力
トレーニングにより、モデルリソースが生成されます。このリソースは、次の処理に使用できます。
- 既知の真陽性を使用してモデルのパフォーマンスを評価するために使用されるバックテストの結果を作成する
- マネー ロンダリングの可能性がある新しいケースの確認を開始する準備ができたら使用される予測結果を作成する
モデル メタデータには missingness
指標が含まれており、データセットの整合性の評価に使用できます(たとえば、異なるオペレーションの特徴ファミリーの欠損値を比較するなど)。
指標名 | 指標の説明 | 指標値の例 |
---|---|---|
欠損 |
各特徴ファミリーのすべての特徴の欠損値の割合。 理想的には、すべての AML AI 特徴ファミリーで、欠損が 0 に近いことが推奨されます。これらの特徴ファミリーの基礎となるデータが統合に使用できない場合、例外が発生する可能性があります。 調整、トレーニング、評価、予測の間の特徴ファミリーの値の大幅な変化は、使用されるデータセットに不整合があることを示している可能性があります。 |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "missingnessValue": 0.00, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "missingnessValue": 0.45, }, ], } |
重要度 |
モデルに対する特徴ファミリーの重要度を示す指標。値が高いほど、モデル内での特徴ファミリーの使用率が高くなります。モデルで使用されていない特徴ファミリーの重要度はゼロになります。 重要度の値は、ファミリー スキュー結果への対応を優先する場合に使用できます。たとえば、モデルに対する重要度が高いファミリーでスキュー値が同じになっている場合は、解決の緊急度が高くなります。 |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "importanceValue": 459761000000, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "importanceValue": 27492, }, ], } |
モデル メタデータには、テストセットの再現率指標は含まれません。特定の期間の再現率の測定値(テストセットなど)を生成するには、モデルを評価するをご覧ください。