모델 생성

이 페이지에서는 모델 학습 이면의 개념을 간략하게 설명합니다.

학습 또는 재학습이 필요한 경우

AML AI는 모델 리소스를 만드는 과정에서 모델을 학습시킵니다. 모델을 평가(즉, 백테스트)하거나 예측 결과를 생성하는 데 사용하려면 먼저 모델을 학습시켜야 합니다.

성능을 극대화하고 최신 모델을 유지하려면 월별 재학습을 고려하세요. 하지만 지정된 엔진 버전은 최신 부 엔진 버전이 출시된 후 12개월 동안 예측 결과를 생성할 수 있습니다.

학습 방법

모델 학습(모델 만들기)을 수행하려면 모델 만들기 및 관리를 참조하세요.

특히 다음을 선택해야 합니다.

  • 학습에 사용할 데이터:

    데이터 세트와 데이터 세트 기간 내의 종료 시간을 지정합니다.

    학습은 선택한 종료 시간의 월은 포함하지 않는 전체 월을 기준으로 라벨과 특성을 사용합니다. 자세한 내용은 데이터 세트 기간 범위를 참조하세요.

  • 일관된 데이터 세트를 사용하여 생성된 엔진 구성:

    엔진 구성을 참조하세요.

학습 출력

학습 시 다음을 수행하는 데 사용할 수 있는 모델 리소스가 생성됩니다.

  • 현재 알려진 참양성을 사용하여 모델 성능을 평가하는 데 사용되는 백테스트 결과를 만듭니다.
  • 예측 결과를 만듭니다. 이 결과는 잠재적인 자금세탁의 새로운 사례를 검토할 준비가 될 때 사용됩니다.

모델 메타데이터에는 다음 측정항목이 포함됩니다. 특히 이 측정항목은 데이터 세트에서 지원하는 특성 계열(예: 엔진 조정, 학습, 평가, 예측)에 대한 대규모 변경사항을 보여줍니다.

측정항목 이름 측정항목 설명 측정항목 값 예시
누락

각 특성 계열의 모든 특성에서 누락된 값의 비중입니다.

이상적으로 모든 AML AI 특성 계열의 누락은 0에 가깝습니다. 해당 특성 계열의 기반이 되는 데이터를 통합에 사용할 수 없는 경우 예외가 발생할 수 있습니다.

조정, 학습, 평가, 예측에서 어느 한 특성 계열 값의 커다란 변화는 사용된 데이터 세트의 불일치를 나타낼 수 있습니다.


{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
중요도

모델에 대한 특성 계열의 중요도를 보여주는 측정항목입니다. 값이 클수록 모델에서 특정 계열 사용이 더 중요함을 나타냅니다. 모델에 사용되지 않는 특성 계열은 중요도가 0입니다.

중요도 값은 계열 편향 결과에 대한 작업의 우선순위를 지정할 때 사용할 수 있습니다. 예를 들어 편향 값이 동일하더라도 모델에 대한 중요도가 더 높은 계열은 보다 긴급하게 해결해야 합니다.


{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "importanceValue": 459761000000,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "importanceValue": 27492,
    },
  ],
}

모델 메타데이터에는 테스트 세트의 재현율 측정항목이 포함되지 않습니다. 특정 기간(예: 테스트 세트)에 대한 재현율 측정을 생성하려면 모델 평가를 참조하세요.