本頁面由 Cloud Translation API 翻譯而成。

評估模型

本頁面適用於下列主要引擎版本群組中的引擎版本。如要查看其他引擎版本的頁面，請使用本頁頂端的選取器。

總而言之，以下是引擎版本 v003 到 v004 (最高至 v004.008) 的變更：

已將 ObservedRecallValuesPerTypology 指標新增至回溯測試輸出內容。
在 ObservedRecallValues 指標值中新增 partiesCount 和 identifiedPartiesCount。

總覽

回溯測試結果會提供指定時間範圍內的模型成效摘要。這些分數是根據回溯測試期間所有顧客的預測結果產生，並根據可用的風險事件評估模型成效。

回溯測試結果可用於評估模型在訓練所用時間範圍以外的成效，或用於長期評估，檢查成效是否下降。

如何回溯測試

如要建立 BacktestResult 資源，請參閱「建立及管理回溯測試結果」。

具體來說，您需要選取下列項目：

用於回溯測試的資料：

指定資料集和結束時間 (必須在資料集的日期範圍內)。

訓練會使用標籤和特徵，這些標籤和特徵是根據完整日曆月 (最多到所選結束時間的月份，但不包括該月份) 產生。詳情請參閱「資料集時間範圍」。

指定要用於回溯測試的標籤資料月份數 (即回溯測試期間數)。

使用 PerformanceTarget 欄位，指定要評估的參與者人數。
根據模型預期的調查量：

指定 partyInvestigationsPerPeriodHint。回溯測試會根據您指定的金額，評估 AML AI 模型在不同每月調查量下的表現。詳情請參閱「回溯測試輸出」。
使用一致的資料集建立的模型：

請參閱「建立模型」。

回測期間

backtestPeriods 欄位會指定要使用多少個連續的日曆月，才能在評估這個模型的成效時使用功能和標籤。

回溯測試資料適用下列條件：

評估時會採用指定 endTime 前最近的完整曆月資料。舉例來說，如果 endTime 為 2023-04-15T23:21:00Z，且 backtestPeriods 為 5，則會使用以下月份的標籤：2023 年 3 月、2023 年 2 月、2023 年 1 月、2022 年 12 月和 2022 年 11 月。
準備在實際工作環境中使用模型時，應使用最新的可用資料進行回溯測試。
回溯測試期間必須設為 3 天以上。系統會保留兩個月的回溯測試期，以因應重複警示，並使用剩餘月份產生正向標籤，用於評估成效。

注意： 視您要求的評估準確度而定，請使用五個以上的回溯測試週期。使用五個回溯測試期表示有三個期間用於產生正向標籤。
請避免在訓練和回溯測試中使用重疊的月份，否則可能會過度配適。請確保回溯測試和訓練的結束時間至少間隔 backtestPeriods。也就是說，

(回溯測試結果結束時間月份) >= (模型結束時間月份) + backtestPeriods

您也可以選擇建立模型的預測結果，並自行分析模型在政黨層級的成效。

回測輸出內容

回溯測試結果中繼資料包含下列指標。具體來說，這些指標會顯示下列資訊：

與其他時間範圍的標籤相比，以及各種不同調查量或風險評分門檻的模式成效

注意：召回率指標只會顯示特定模型會發出警報的歷史事件比例，可用於決定是否繼續進行實際測試。AML_EXIT由於模型發出警示的顧客不一定都經過調查，因此實際成效預計會大幅提升。
可用於評估資料集一致性的指標 (例如，比較不同作業中特徵系列的缺漏值)

指標名稱	指標說明	指標值範例
ObservedRecallValues	在指定用於回溯測試的資料集上測量的喚回度指標。API 包含 20 項這類測量結果，這些結果是在不同的作業點取得，且平均分布在 0 (不含) 到 2 * `partyInvestigationsPerPeriodHint` 之間。API 會在 `partyInvestigationsPerPeriodHint` 新增最終回想度評估。除了召回值，我們也會分別以 `partiesCount` 和 `identifiedPartiesCount` 提供分子和分母。	{ "recallValues": [ { "partyInvestigationsPerPeriod": 5000, "recallValue": 0.80, "partiesCount": 60, "identifiedPartiesCount": 48, "scoreThreshold": 0.42, }, ... ... { "partyInvestigationsPerPeriod": 8000, "recallValue": 0.85, "partiesCount": 60, "identifiedPartiesCount": 51, "scoreThreshold": 0.30, }, ], }
ObservedRecallValuesPerTypology	在為回溯測試指定的資料集上，以風險類型層級測量的喚回度指標。評估方式與 `ObservedRecallValues` 相同。	{ "recallValuesPerTypology": [ { "partyInvestigationsPerPeriod": 5000, "riskTypology": "risk_typology_id_1", "recallValue": 0.80, "partiesCount": 60, "identifiedPartiesCount": 48, "scoreThreshold": 0.42, }, { "partyInvestigationsPerPeriod": 8000, "riskTypology": "risk_typology_id_1", "recallValue": 0.90, "partiesCount": 60, "identifiedPartiesCount": 54, "scoreThreshold": 0.30, }, ... ... { "partyInvestigationsPerPeriod": 8000, "riskTypology": "risk_typology_id_2", "recallValue": 0.75, "partiesCount": 4 "identifiedPartiesCount": 3, "scoreThreshold": 0.30, }, ], }
遺漏值	每個特徵系列中所有特徵的遺漏值比例。在理想情況下，所有 AML AI 功能系列都應接近 0。如果這些功能系列的基礎資料無法整合，就可能會發生例外狀況。如果任何特徵系列的此值在微調、訓練、評估和預測之間出現顯著變化，可能表示所用資料集不一致。	{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "missingnessValue": 0.00, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "missingnessValue": 0.45, }, ], }
Skew	顯示訓練和預測或回溯測試資料集之間偏差的指標。家庭偏斜表示特徵系列中特徵值分布的變化，並根據該系列中特徵的重要性加權。最大傾斜度是指該系列中任何特徵的最大傾斜度。偏斜值範圍為 0 到 1，0 代表特徵系列的值分布沒有顯著變化，1 則代表變化最顯著。如果任一類別的偏斜值或最大偏斜值偏高，表示資料結構發生重大變化，可能會影響模型效能。如果模型未使用系列中的任何特徵，系列偏斜度會採用 -1 值。如果偏斜值較大，請採取下列任一做法：調查該功能系列所用資料的變化 (請參閱模型管理支援資料)，並修正任何輸入資料問題使用較近期的資料重新訓練模型您應根據幾個月來偏斜指標的自然變異，設定採取行動的偏斜值和最大偏斜值門檻。	{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "familySkewValue": 0.10, "maxSkewValue": 0.14, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "familySkewValue": 0.11, "maxSkewValue": 0.11, }, ], }