概要
このページでは、AML AI プロセスの概要と、お客様が理解しておくべき主なコンセプトについて説明します。これは主に、AML AI を使用してモデルのトレーニング、テスト、デプロイを行うチームを対象としています。
銀行は AML AI を使用して、マネー ロンダリングを検出するためのモデルを自動的にトレーニング、テスト、デプロイできます。AML AI ガイドは、次の 5 つの手順に対応する 5 つの左側ナビゲーション セクションに分かれています。
ステップ | 説明 |
---|---|
1. AML AI を設定する | Google Cloud プロジェクトで AML AI を使用する準備ができていることを確認します。 必要な Google Cloud サービスを有効にして、ロギングと割り当てを設定します。1 つ以上の AML AI インスタンスを作成します。 |
2. AML AI 用のデータを準備する | データモデルとスキーマを確認します。組み込むデータを優先します。 必要なコア バンキング データ、リスク調査データ、その他の必要なデータを収集して変換します。データセットを作成して検証します。 |
3. モデルを生成してパフォーマンスを評価する | AML AI エンジン、モデル、バックテストについて理解します。
|
4. リスクスコアと説明可能性を生成する | リテール バンキングとコマーシャル バンキングのお客様を登録します。モデルを使用して、次の当事者ごとのリスクスコアと説明可能性を生成します。
|
5. モデルとリスク ガバナンスを準備する | モデルのリスク ガバナンス プロセスの要件を満たすために、調整、トレーニング、評価、予測の AML AI 出力を AML のコンセプトやプロダクト ドキュメントと組み合わせます。 |
モデルの作成、テスト、デプロイを行うコア AML AI 技術オペレーションは次のとおりです。これらは、上の表のステップ 2-4 をサポートします。
- AML AI データセットの作成 - AML AI 用の BigQuery 入力データテーブルの構造化セットを作成します。
- エンジン構成 - ハイパーパラメータのチューニングなど、AML AI エンジンを AML AI データセットに合わせて調整します。
- モデル トレーニング - エンジン構成とデータセットを使用して AML AI モデルをトレーニングします。
- バックテスト - データセットの過去のデータに対して AML AI モデルをテストし、パフォーマンスの概要を表示します。
- 当事者の登録 - 当事者(銀行商品を所有し、取引の送受信を行う銀行の顧客)を登録して、予測でスコアを付けられるようにする
- 予測 - 本番環境で使用するための当事者スコアと説明可能性を生成します。
エンジン構成、モデル トレーニング、モデル バックテスト、モデル予測はずべて、入力としての AML AI データセットを要求し、他のオペレーションで使用される対応するアーティファクトを返します。たとえば、モデル トレーニングは、バックテストや予測に使用できるトレーニング済みの AML AI モデルへの参照を返します。オペレーションの技術的な詳細については、REST リファレンスの概要をご覧ください。
AML AI プロセスの依存関係ツリー
AML AI を使用する際の重要な考慮事項
このセクションでは、AML AI の主要なコンセプトを紹介し、ベスト プラクティスについて説明します。ここで説明するトピックについては、専用のガイドで詳しく説明しています。詳細については、リンク先をご覧ください。
日付の整合性
AML AI では、オペレーションごとに異なる期間が使用されます。信頼できる結果を得るには、各オペレーションに選択する日付に注意する必要があります。特に、結果の偏りを回避するために、AML AI モデルのトレーニングに使用される月が、バックテストに使用される月と重複しないようにすることが重要です。
AML AI データセットには数か月分のデータが含まれているため、適切な日付を選択すれば、複数のオペレーションにデータセットを使用できます。次の図は、AML AI を使用した開発サイクルを示しています。ここでは、42 か月間にわたる単一のデータセット内の異なる期間を使用して、エンジン(ハイパーパラメータ チューニング)、トレーニング、バックテストを構成します。これらのプロセスはすべて、モデルにコンテキストを提供するルックバック ウィンドウを使用します。また、他のオペレーションに使用されるデータと安全に重複できます。
AML AI データセットとさまざまなオペレーションの時間枠の詳細については、データのスコープと期間を理解するをご覧ください。
時間の経過に伴うデータの変化を正しく記録するには、時間経過に伴うデータの変化をご覧ください。
本番環境バッチの頻度
予測では、AML AI は暦月ベースで AML リスクスコアを生成します。お客様は通常、AML AI を毎月のバッチ処理の一部として使用します。可能な限り、完全なトランザクション データがある月で予測を実行することをおすすめします。
フィールドの一貫性
他の機械学習プロセスと同様に、トレーニング データとテストデータの間でデータの整合性が可能な限り維持されている必要があります。フィールドが一貫して入力されていないと、その変化によって信頼できない結果が生じる可能性があります。開発サイクル内の各オペレーションでフィールドが確実に一貫して入力されるようにする手順を講じることを強くおすすめします。これは、オペレーションごとに異なるデータセットを使用する場合に特に重要です。詳細については、データセットの整合性をご覧ください。
エンジン構成
エンジン構成を作成したら、通常、新しいデータセットごとに、または開発サイクルごとに再作成する必要はありません。通常、1 つのデータセットのエンジン構成で選択されたハイパーパラメータは、類似するデータセットでも良好なパフォーマンスを発揮します。
以下の図は反復的な開発ライフサイクルを示していますが、前の図では、モデル トレーニングとバックテストの両方のオペレーションに単一のデータセットを使用しています。
詳細については、チューニングまたは継承するタイミングをご覧ください。
データリネージ
ほとんどのモデル ガバナンス ポリシーでは、エンジン構成、トレーニング、評価、予測のすべての ML オペレーションで使用されるデータリネージを追跡するための要件が定義されています。このデータリネージの追跡はお客様の責任となります。
すべての入力データ、AML AI リソース、出力データの名前に一意の識別子を使用して、ステージ間でリネージを追跡することをおすすめします。これにより、特定の実行におけるリソース間の強力なリンクを確保できます。すべての AML AI リソースにラベルを付けて、リネージの要件を満たすこともできます。
また、正確なデータリネージを確保するために、API リクエストで BigQuery スナップショットを使用することをおすすめします。
この構成は、インシデントの調査と解決に役立つと同時に、「このエンジン構成はどこから来たのか?」や「このモデルはどこから来たのか?」などの質問に答える際にも役立てることができます。
AML AI リソースの作成と管理方法については、REST API のページをご覧ください。