評估模型

本頁面適用於下列主要引擎版本群組中的引擎版本。如要查看其他引擎版本的頁面,請使用本頁頂端的選取器。

總而言之,以下是引擎版本 v003 到 v004 (最高至 v004.008) 的變更:

  • 已將 ObservedRecallValuesPerTypology 指標新增至回溯測試輸出內容。
  • ObservedRecallValues 指標值中新增 partiesCountidentifiedPartiesCount

總覽

回溯測試結果會提供指定時間範圍內的模型成效摘要。這些分數是根據回溯測試期間所有顧客的預測結果產生,並根據可用的風險事件評估模型成效。

回溯測試結果可用於評估模型在訓練所用時間範圍以外的成效,或用於長期評估,檢查成效是否下降。

如何回溯測試

如要建立 BacktestResult 資源,請參閱「建立及管理回溯測試結果」。

具體來說,您需要選取下列項目:

  • 用於回溯測試的資料:

    指定資料集和結束時間 (必須在資料集的日期範圍內)。

    訓練會使用標籤和特徵,這些標籤和特徵是根據完整日曆月 (最多到所選結束時間的月份,但不包括該月份) 產生。詳情請參閱「資料集時間範圍」。

    指定要用於回溯測試的標籤資料月份數 (即回溯測試期間數)。

    使用 PerformanceTarget 欄位,指定要評估的參與者人數。

  • 根據模型預期的調查量:

    指定 partyInvestigationsPerPeriodHint。回溯測試會根據您指定的金額,評估 AML AI 模型在不同每月調查量下的表現。詳情請參閱「回溯測試輸出」。

  • 使用一致的資料集建立的模型:

    請參閱「建立模型」。

回測期間

backtestPeriods 欄位會指定要使用多少個連續的日曆月,才能在評估這個模型的成效時使用功能和標籤。

回溯測試資料適用下列條件:

  • 評估時會採用指定 endTime 前最近的完整曆月資料。舉例來說,如果 endTime2023-04-15T23:21:00Z,且 backtestPeriods5,則會使用以下月份的標籤:2023 年 3 月、2023 年 2 月、2023 年 1 月、2022 年 12 月和 2022 年 11 月。
  • 準備在實際工作環境中使用模型時,應使用最新的可用資料進行回溯測試。
  • 回溯測試期間必須設為 3 天以上。系統會保留兩個月的回溯測試期,以因應重複警示,並使用剩餘月份產生正向標籤,用於評估成效。

  • 請避免在訓練和回溯測試中使用重疊的月份,否則可能會過度配適。請確保回溯測試和訓練的結束時間至少間隔 backtestPeriods。也就是說,

    (回溯測試結果結束時間月份) >= (模型結束時間月份) + backtestPeriods

您也可以選擇建立模型的預測結果,並自行分析模型在政黨層級的成效。

回測輸出內容

回溯測試結果中繼資料包含下列指標。具體來說,這些指標會顯示下列資訊:

  • 與其他時間範圍的標籤相比,以及各種不同調查量或風險評分門檻的模式成效

  • 可用於評估資料集一致性的指標 (例如,比較不同作業中特徵系列的缺漏值)

指標名稱 指標說明 指標值範例
ObservedRecallValues 在指定用於回溯測試的資料集上測量的喚回度指標。API 包含 20 項這類測量結果,這些結果是在不同的作業點取得,且平均分布在 0 (不含) 到 2 * partyInvestigationsPerPeriodHint 之間。API 會在 partyInvestigationsPerPeriodHint 新增最終回想度評估。

除了召回值,我們也會分別以 partiesCountidentifiedPartiesCount 提供分子和分母。
{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "partiesCount": 60,
      "identifiedPartiesCount": 48,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "recallValue": 0.85,
      "partiesCount": 60,
      "identifiedPartiesCount": 51,
      "scoreThreshold": 0.30,
    },
  ],
}
ObservedRecallValuesPerTypology 在為回溯測試指定的資料集上,以風險類型層級測量的喚回度指標。評估方式與 ObservedRecallValues 相同。
{
  "recallValuesPerTypology": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "riskTypology": "risk_typology_id_1",
      "recallValue": 0.80,
      "partiesCount": 60,
      "identifiedPartiesCount": 48,
      "scoreThreshold": 0.42,
    },
    {
      "partyInvestigationsPerPeriod": 8000,
      "riskTypology": "risk_typology_id_1",
      "recallValue": 0.90,
      "partiesCount": 60,
      "identifiedPartiesCount": 54,
      "scoreThreshold": 0.30,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "riskTypology": "risk_typology_id_2",
      "recallValue": 0.75,
      "partiesCount": 4
      "identifiedPartiesCount": 3,
      "scoreThreshold": 0.30,
    },
  ],
}
遺漏值

每個特徵系列中所有特徵的遺漏值比例。

在理想情況下,所有 AML AI 功能系列都應接近 0。如果這些功能系列的基礎資料無法整合,就可能會發生例外狀況。

如果任何特徵系列的此值在微調、訓練、評估和預測之間出現顯著變化,可能表示所用資料集不一致。

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
Skew

顯示訓練和預測或回溯測試資料集之間偏差的指標。家庭偏斜表示特徵系列中特徵值分布的變化,並根據該系列中特徵的重要性加權。最大傾斜度是指該系列中任何特徵的最大傾斜度。

偏斜值範圍為 0 到 1,0 代表特徵系列的值分布沒有顯著變化,1 則代表變化最顯著。如果任一類別的偏斜值或最大偏斜值偏高,表示資料結構發生重大變化,可能會影響模型效能。如果模型未使用系列中的任何特徵,系列偏斜度會採用 -1 值。

如果偏斜值較大,請採取下列任一做法:

  • 調查該功能系列所用資料的變化 (請參閱模型管理支援資料),並修正任何輸入資料問題
  • 使用較近期的資料重新訓練模型

您應根據幾個月來偏斜指標的自然變異,設定採取行動的偏斜值和最大偏斜值門檻。

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}