總而言之,以下是引擎版本 v003 到 v004 (最高至 v004.008) 的變更:
- 已將
ObservedRecallValuesPerTypology
指標新增至回溯測試輸出內容。 - 在
ObservedRecallValues
指標值中新增partiesCount
和identifiedPartiesCount
。
總覽
回溯測試結果會提供指定時間範圍內的模型成效摘要。這些分數是根據回溯測試期間所有顧客的預測結果產生,並根據可用的風險事件評估模型成效。
回溯測試結果可用於評估模型在訓練所用時間範圍以外的成效,或用於長期評估,檢查成效是否下降。
如何回溯測試
如要建立 BacktestResult 資源,請參閱「建立及管理回溯測試結果」。
具體來說,您需要選取下列項目:
用於回溯測試的資料:
指定資料集和結束時間 (必須在資料集的日期範圍內)。
訓練會使用標籤和特徵,這些標籤和特徵是根據完整日曆月 (最多到所選結束時間的月份,但不包括該月份) 產生。詳情請參閱「資料集時間範圍」。
指定要用於回溯測試的標籤資料月份數 (即回溯測試期間數)。
使用 PerformanceTarget 欄位,指定要評估的參與者人數。
根據模型預期的調查量:
指定
partyInvestigationsPerPeriodHint
。回溯測試會根據您指定的金額,評估 AML AI 模型在不同每月調查量下的表現。詳情請參閱「回溯測試輸出」。使用一致的資料集建立的模型:
請參閱「建立模型」。
回測期間
backtestPeriods
欄位會指定要使用多少個連續的日曆月,才能在評估這個模型的成效時使用功能和標籤。
回溯測試資料適用下列條件:
- 評估時會採用指定
endTime
前最近的完整曆月資料。舉例來說,如果endTime
為2023-04-15T23:21:00Z
,且backtestPeriods
為5
,則會使用以下月份的標籤:2023 年 3 月、2023 年 2 月、2023 年 1 月、2022 年 12 月和 2022 年 11 月。 - 準備在實際工作環境中使用模型時,應使用最新的可用資料進行回溯測試。
回溯測試期間必須設為
3
天以上。系統會保留兩個月的回溯測試期,以因應重複警示,並使用剩餘月份產生正向標籤,用於評估成效。請避免在訓練和回溯測試中使用重疊的月份,否則可能會過度配適。請確保回溯測試和訓練的結束時間至少間隔
backtestPeriods
。也就是說,(回溯測試結果結束時間月份) >= (模型結束時間月份) +
backtestPeriods
您也可以選擇建立模型的預測結果,並自行分析模型在政黨層級的成效。
回測輸出內容
回溯測試結果中繼資料包含下列指標。具體來說,這些指標會顯示下列資訊:
指標名稱 | 指標說明 | 指標值範例 |
---|---|---|
ObservedRecallValues | 在指定用於回溯測試的資料集上測量的喚回度指標。API 包含 20 項這類測量結果,這些結果是在不同的作業點取得,且平均分布在 0 (不含) 到 2 * partyInvestigationsPerPeriodHint 之間。API 會在 partyInvestigationsPerPeriodHint 新增最終回想度評估。除了召回值,我們也會分別以 partiesCount 和 identifiedPartiesCount 提供分子和分母。
|
{ "recallValues": [ { "partyInvestigationsPerPeriod": 5000, "recallValue": 0.80, "partiesCount": 60, "identifiedPartiesCount": 48, "scoreThreshold": 0.42, }, ... ... { "partyInvestigationsPerPeriod": 8000, "recallValue": 0.85, "partiesCount": 60, "identifiedPartiesCount": 51, "scoreThreshold": 0.30, }, ], } |
ObservedRecallValuesPerTypology | 在為回溯測試指定的資料集上,以風險類型層級測量的喚回度指標。評估方式與 ObservedRecallValues 相同。 |
{ "recallValuesPerTypology": [ { "partyInvestigationsPerPeriod": 5000, "riskTypology": "risk_typology_id_1", "recallValue": 0.80, "partiesCount": 60, "identifiedPartiesCount": 48, "scoreThreshold": 0.42, }, { "partyInvestigationsPerPeriod": 8000, "riskTypology": "risk_typology_id_1", "recallValue": 0.90, "partiesCount": 60, "identifiedPartiesCount": 54, "scoreThreshold": 0.30, }, ... ... { "partyInvestigationsPerPeriod": 8000, "riskTypology": "risk_typology_id_2", "recallValue": 0.75, "partiesCount": 4 "identifiedPartiesCount": 3, "scoreThreshold": 0.30, }, ], } |
遺漏值 |
每個特徵系列中所有特徵的遺漏值比例。 在理想情況下,所有 AML AI 功能系列都應接近 0。如果這些功能系列的基礎資料無法整合,就可能會發生例外狀況。 如果任何特徵系列的此值在微調、訓練、評估和預測之間出現顯著變化,可能表示所用資料集不一致。 |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "missingnessValue": 0.00, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "missingnessValue": 0.45, }, ], } |
Skew |
顯示訓練和預測或回溯測試資料集之間偏差的指標。家庭偏斜表示特徵系列中特徵值分布的變化,並根據該系列中特徵的重要性加權。最大傾斜度是指該系列中任何特徵的最大傾斜度。 偏斜值範圍為 0 到 1,0 代表特徵系列的值分布沒有顯著變化,1 則代表變化最顯著。如果任一類別的偏斜值或最大偏斜值偏高,表示資料結構發生重大變化,可能會影響模型效能。如果模型未使用系列中的任何特徵,系列偏斜度會採用 -1 值。 如果偏斜值較大,請採取下列任一做法:
您應根據幾個月來偏斜指標的自然變異,設定採取行動的偏斜值和最大偏斜值門檻。 |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "familySkewValue": 0.10, "maxSkewValue": 0.14, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "familySkewValue": 0.11, "maxSkewValue": 0.11, }, ], } |