模型準備作業總覽

本頁面將引導您準備 AML AI 模型的步驟,假設您已設定執行個體並準備必要的資料集。

階段總覽

模型的準備程序分為以下三個階段:

完成前面階段後,如果模型成效符合您的需求,請參閱「產生風險分數和可解釋性」和「準備模型和風險治理」部分的指導方針。

事前準備

開始之前,請先準備下列項目:

資料集規定

如需資料模型和結構定義的詳細指南,請參閱「為 AML AI 準備資料」下方的頁面。本節將說明如何確保在調整、訓練及評估引擎時,所使用的資料集能順利搭配運作。

資料集時間範圍

用於調整、訓練、回測和預測作業的每個資料集,都應包含在 API 呼叫中指定的 end_time 前一個完整日曆月的結束時間,結束時間的時間範圍應為有效資料。這個時間範圍的長度取決於資料表、引擎版本和作業。如要進一步瞭解最小時間範圍,請參閱「瞭解資料範圍和時間長度」一文。

舉例來說,如果要使用 v004.004 引擎版本進行引擎調整,交易資料表應涵蓋至少 30 個月。

您可以使用單一資料集完成引擎設定、訓練和評估 (回測) 作業,請參閱下圖。為避免過度擬合,確保正式環境的良好效能,請務必確保用於評估 (也就是建立回測結果) 的期間,是在用於訓練 (也就是建立模型) 的期間之後。

舉例來說,如果您使用 3 個期間進行回測,並使用截至 2024 年 2 月底的期間進行訓練 (也就是 2024 年 3 月初的結束時間),那麼您可以使用截至 2024 年 5 月底的期間進行回測 (也就是 2024 年 6 月初的結束時間)。

用於調整、訓練和回測的資料集時間範圍

資料集一致性

在引擎調整、訓練和評估階段使用不同資料集時,請確保資料集在填入哪些欄位和填入方式上保持一致。這對 AML 模型的穩定性和成效至關重要。

同樣地,如要取得高品質的風險分數,使用模型建立預測結果的資料集,應與用於訓練該模型的資料集一致。

請特別注意下列事項:

  • 系統會使用相同的邏輯填入每個欄位。變更用於填入欄位的邏輯,可能會在模型訓練與預測或評估之間引入特徵偏差。
  • 系統會填入相同的「建議」欄位。舉例來說,移除模型訓練期間填入的欄位,可能會導致模型在評估或預測期間偏離或遺漏模型所依賴的特徵。
  • 提供值時會使用相同的邏輯。PartySupplementaryData 資料表中,會使用相同的邏輯為每個 party_supplementary_data_id 欄位提供值。

    • 如果使用相同的資料,但 party_supplementary_data_id 值不同,模型就會錯誤使用資料。舉例來說,某個資料欄位會在一個資料集的 PartySupplementaryData 資料表中使用 ID 5,但在另一個資料集中使用 ID 7
    • 移除模型所依賴的 party_supplementary_data_id 值可能會產生無法預測的影響。舉例來說,ID 3 會用於某個資料集的 PartySupplementaryData 資料表,但會從另一個資料集省略。

您現在已準備好資料集,可用於調整、訓練及評估引擎。請注意,模型作業可能需要數十小時才能完成。如要瞭解如何檢查作業是否仍在執行或已完成 (失敗或成功),請參閱「管理長時間運行的作業」。