本頁面將引導您準備 AML AI 模型的步驟,假設您已設定執行個體並準備必要的資料集。
階段總覽
模型的準備程序分為以下三個階段:
第 1 階段:設定引擎,包括選取超參數的來源:
- 調整:自動調整超參數
- 繼承:從先前引擎設定中繼承超參數,這些設定是在相同的調校版本中使用舊引擎版本建立。這項設定可讓您在每次採用新模型引擎版本時,避免重新調整。
建立引擎設定會將微調或繼承的結果儲存在 EngineConfig 資源中。
階段 2:產生模型
第 3 階段:評估模型
建立回測結果會評估指定月份的模型效能,並將摘要結果儲存在 BacktestResult 資源中。您可以選擇建立預測結果,評估模型的各方輸出內容。
完成前面階段後,如果模型成效符合您的需求,請參閱「產生風險分數和可解釋性」和「準備模型和風險治理」部分的指導方針。
事前準備
開始之前,請先準備下列項目:
資料集規定
如需資料模型和結構定義的詳細指南,請參閱「為 AML AI 準備資料」下方的頁面。本節將說明如何確保在調整、訓練及評估引擎時,所使用的資料集能順利搭配運作。
資料集時間範圍
用於調整、訓練、回測和預測作業的每個資料集,都應包含在 API 呼叫中指定的 end_time 前一個完整日曆月的結束時間,結束時間的時間範圍應為有效資料。這個時間範圍的長度取決於資料表、引擎版本和作業。如要進一步瞭解最小時間範圍,請參閱「瞭解資料範圍和時間長度」一文。
舉例來說,如果要使用 v004.004 引擎版本進行引擎調整,交易資料表應涵蓋至少 30 個月。
您可以使用單一資料集完成引擎設定、訓練和評估 (回測) 作業,請參閱下圖。為避免過度擬合,確保正式環境的良好效能,請務必確保用於評估 (也就是建立回測結果) 的期間,是在用於訓練 (也就是建立模型) 的期間之後。
舉例來說,如果您使用 3 個期間進行回測,並使用截至 2024 年 2 月底的期間進行訓練 (也就是 2024 年 3 月初的結束時間),那麼您可以使用截至 2024 年 5 月底的期間進行回測 (也就是 2024 年 6 月初的結束時間)。
資料集一致性
在引擎調整、訓練和評估階段使用不同資料集時,請確保資料集在填入哪些欄位和填入方式上保持一致。這對 AML 模型的穩定性和成效至關重要。
同樣地,如要取得高品質的風險分數,使用模型建立預測結果的資料集,應與用於訓練該模型的資料集一致。
請特別注意下列事項:
- 系統會使用相同的邏輯填入每個欄位。變更用於填入欄位的邏輯,可能會在模型訓練與預測或評估之間引入特徵偏差。
- 系統會填入相同的「建議」欄位。舉例來說,移除模型訓練期間填入的欄位,可能會導致模型在評估或預測期間偏離或遺漏模型所依賴的特徵。
提供值時會使用相同的邏輯。在 PartySupplementaryData 資料表中,會使用相同的邏輯為每個
party_supplementary_data_id
欄位提供值。- 如果使用相同的資料,但
party_supplementary_data_id
值不同,模型就會錯誤使用資料。舉例來說,某個資料欄位會在一個資料集的 PartySupplementaryData 資料表中使用 ID5
,但在另一個資料集中使用 ID7
。 - 移除模型所依賴的
party_supplementary_data_id
值可能會產生無法預測的影響。舉例來說,ID3
會用於某個資料集的 PartySupplementaryData 資料表,但會從另一個資料集省略。
- 如果使用相同的資料,但
您現在已準備好資料集,可用於調整、訓練及評估引擎。請注意,模型作業可能需要數十小時才能完成。如要瞭解如何檢查作業是否仍在執行或已完成 (失敗或成功),請參閱「管理長時間運行的作業」。