このページでは、AML AI モデルを準備する手順を説明します。インスタンスがすでに設定され、必要なデータセットが準備されていることを前提としています。
ステージの概要
モデルを準備するプロセスは、次の 3 つのステージで行われます。
ステージ 1: エンジンのハイパーパラメータ調整を自動的に行うエンジンを構成する
エンジン構成を作成すると、ハイパーパラメータの自動調整がトリガーされ、結果が EngineConfig リソースとして保存されます。
ステージ 2: モデルを生成する
モデルの作成によってトレーニングがトリガーされ、結果が Model リソースとして保存されます。
ステージ 3: モデルを評価する
バックテストの結果の作成では、指定された月のセットのモデルのパフォーマンスを評価し、サマリー結果を BacktestResult リソースに保存します。必要に応じて、予測結果を作成して、モデルの当事者ごとの出力を評価できます。
上記の段階を完了し、モデルのパフォーマンスがニーズを満たしている場合は、リスクスコアと説明可能性の生成とモデルとリスク ガバナンスの準備のセクションのガイダンスをご覧ください。
準備
始める前に、次のものが必要になります。
- 1 つ以上のデータセット
- 使用する、選択したエンジン バージョン
データセットの要件
データモデルとスキーマの詳細なガイダンスについては、AML AI 用にデータを準備するのページをご覧ください。このセクションでは、エンジンの調整、トレーニング、評価で使用されるデータセットが適切に機能するようにする方法について説明します。
データセットの期間
各オペレーションにおけるデータセットの最小期間については、データ スコープと期間についてをご覧ください。 つまり、テーブルに応じて 18 か月以上のコア時間枠に加えて、0 ~ 24 か月のルックバック ウィンドウが必要です。
たとえば、エンジンの調整の場合、Transaction テーブルは少なくとも 42 か月(18 か月のコア時間枠および 24 か月のルックバック ウィンドウ)をカバーする必要があります。
エンジンの構成、トレーニング、評価(バックテスト)は、1 つのデータセットで完了できます。次の画像をご覧ください。過学習を回避することで本番環境のパフォーマンスを維持するために、評価のコア時間枠(つまり、バックテスト結果の作成)を使用する必要があります。これは、分離され、トレーニングのコア時間枠よりも最新の(つまり、モデルの作成)のものです。
データセットの整合性
エンジンの調整、トレーニング、評価の段階で異なるデータセットを使用する場合は、入力されるフィールドとそれらの入力方法においてデータセットが統一されるようにします。これは、AML モデルの安定性とパフォーマンスにとって重要です。
同様に、高品質のリスクスコアの場合、モデルで予測結果を作成するために使用するデータセットは、そのモデルのトレーニングに使用するデータセットと一致している必要があります。
特に、以下を確認してください。
- 各フィールドの入力にも、同じロジックが使用されます。フィールドに入力するためのロジックを変更すると、モデルのトレーニングと予測や評価との間に特徴の偏りが生じる可能性があります。
- 同じ RECOMMENDED フィールドの選択が入力されます。たとえば、モデルのトレーニング中に入力されたフィールドを削除すると、評価または予測中にモデルが依存している特徴が偏ったり、欠落したりする可能性があります。
同じロジックを使用して値が提供されます。PartySupplementaryData テーブルでは、同じロジックを使用して各
party_supplementary_data_id
フィールドの値を指定します。- 同じデータを使用しても、
party_supplementary_data_id
の値が異なる場合は、モデルでデータが誤って使用されます。たとえば、特定のフィールドでは、あるデータセットに対して PartySupplementaryData テーブルで ID5
を使用していますが、別のデータセットでは ID7
を使用しています。 - モデルが依存している
party_supplementary_data_id
値を削除すると、予期しない影響が生じる可能性があります。たとえば、ID3
は、あるデータセットの PartySupplementaryData テーブルで使用されますが、別のデータセットでは省略されます。
- 同じデータを使用しても、
これで、エンジンの調整、トレーニング、評価のデータセットが作成されました。モデル オペレーションには数時間かかる場合があります。オペレーションがまだ実行中であるか、完了したか(失敗または成功)を確認する方法については、長時間実行オペレーションの管理をご覧ください。