モデルを生成する

このページでは、モデルのトレーニングの背後にあるコンセプトについて簡単に説明します。

トレーニングまたは再トレーニングのタイミング

AML AI は、モデルリソースの作成の一部としてモデルをトレーニングします。モデルを評価(つまり、バックテストを行う)する前、または予測結果の生成に使用する前にトレーニングする必要があります。

最高のパフォーマンスを維持し、最新のモデルを維持するには、月ごとの再トレーニングを検討してください。ただし、特定のエンジン バージョンでは、新しいマイナー エンジン バージョンのリリースから 12 か月間、予測結果の生成がサポートされます。

トレーニング方法

モデルをトレーニングする(つまり、モデルを作成する)には、モデルの作成と管理をご覧ください。

特に、次の項目を選択する必要があります。

  • トレーニングに使用するデータ:

    データセットと、データセットの期間内での終了時間を指定します。

    トレーニングでは、選択した終了時間の暦月(ただしその歴月を含まない)までの完全な暦月に基づくラベルと特徴が使用されます。詳細については、データセットの期間をご覧ください。

  • 一貫性のあるデータセットを使用して作成されたエンジン構成:

    エンジンの構成をご覧ください。

トレーニング出力

トレーニングでは、以下のことに使用できるモデルリソースが生成されます。

  • 既知の真陽性を使用してモデルのパフォーマンスを評価するために使用されるバックテストの結果を作成する
  • マネー ロンダリングの可能性がある新しいケースの確認を開始する準備ができたら使用される予測結果を作成する

モデル メタデータには次の指標が含まれます。特に、この指標は、データセットでサポートされている特徴ファミリーの大きな変化(エンジンの調整、トレーニング、評価、予測の間)を示します。

指標名 指標の説明 指標値の例
欠損

各特徴ファミリーのすべての特徴の欠損値の割合。

理想的には、すべての AML AI 特徴ファミリーで、欠損が 0 に近いことが推奨されます。これらの特徴ファミリーの基礎となるデータが統合に使用できない場合、例外が発生する可能性があります。

調整、トレーニング、評価、予測の間の特徴ファミリーの値の大幅な変化は、使用されるデータセットに不整合があることを示している可能性があります。


{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
重要度

モデルに対する特徴ファミリーの重要度を示す指標。値が高いほど、モデル内での特徴ファミリーの使用率が高くなります。モデルで使用されていない特徴ファミリーの重要度はゼロになります。

重要度の値は、ファミリー スキュー結果への対応を優先する場合に使用できます。たとえば、モデルに対する重要度が高いファミリーでスキュー値が同じになっている場合は、解決の緊急度が高くなります。


{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "importanceValue": 459761000000,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "importanceValue": 27492,
    },
  ],
}

モデル メタデータには、テストセットの再現率指標は含まれません。特定の期間(テストセットなど)の再現率の測定値を生成するには、モデルの評価をご覧ください。