모델 생성

이 페이지에서는 모델 학습의 기반이 되는 개념을 간략히 설명합니다. AML AI 모델 리소스는 위험 점수 및 설명 기능을 생성하는 데 사용할 수 있는 학습된 모델을 나타냅니다.

학습 또는 재학습해야 하는 경우

AML AI는 모델 리소스를 만드는 과정에서 모델을 학습시킵니다. 모델을 평가(즉, 백테스트)하거나 예측 결과를 생성하는 데 사용하려면 먼저 모델을 학습시켜야 합니다.

최상의 성능을 달성하고 최신 모델을 유지하려면 매월 재학습하는 것이 좋습니다. 그러나 특정 엔진 버전은 최신 부 엔진 버전이 출시된 후 12개월 동안 예측 결과 생성을 지원합니다.

학습 방법

모델 학습(모델 만들기)을 수행하려면 모델 만들기 및 관리를 참조하세요.

특히 다음을 선택해야 합니다.

  • 학습에 사용할 데이터:

    데이터 세트와 데이터 세트 기간 내의 종료 시간을 지정합니다.

    학습은 선택한 종료 시간의 월은 포함하지 않는 전체 월을 기준으로 라벨과 특성을 사용합니다. 자세한 내용은 데이터 세트 기간 범위를 참조하세요.

  • 일관된 데이터 세트를 사용하여 생성된 엔진 구성:

    엔진 구성을 참조하세요.

학습 출력

학습은 다음 작업을 하는 데 사용할 수 있는 모델 리소스를 생성합니다.

  • 현재 알려진 참양성을 사용하여 모델 성능을 평가하는 데 사용되는 백테스트 결과를 만듭니다.
  • 잠재적인 자금 세탁에 대한 새로운 케이스 검토를 시작할 준비가 되면 사용되는 예측 결과를 만듭니다.

모델 메타데이터에는 데이터 세트 일관성을 평가하는 데 사용할 수 있는 missingness 측정항목이 포함되어 있습니다(예: 여러 작업에서 특성 계열의 누락 값 비교).

측정항목 이름 측정항목 설명 측정항목 값 예시
누락

각 특성 계열의 모든 특성에서 누락된 값의 비중입니다.

이상적으로 모든 AML AI 특성 계열의 누락은 0에 가깝습니다. 해당 특성 계열의 기반이 되는 데이터를 통합에 사용할 수 없는 경우 예외가 발생할 수 있습니다.

조정, 학습, 평가, 예측에서 어느 한 특성 계열 값의 커다란 변화는 사용된 데이터 세트의 불일치를 나타낼 수 있습니다.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
중요도

모델에 대한 특성 계열의 중요도를 보여주는 측정항목입니다. 값이 클수록 모델에서 특정 계열 사용이 더 중요함을 나타냅니다. 모델에 사용되지 않는 특성 계열은 중요도가 0입니다.

중요도 값은 계열 편향 결과에 대한 작업의 우선순위를 지정할 때 사용할 수 있습니다. 예를 들어 편향 값이 동일하더라도 모델에 대한 중요도가 더 높은 계열은 보다 긴급하게 해결해야 합니다.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "importanceValue": 459761000000,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "importanceValue": 27492,
    },
  ],
}

모델 메타데이터에는 테스트 세트의 재현율 측정항목이 포함되지 않습니다. 특정 기간(예: 테스트 세트)에 대한 재현율 측정을 생성하려면 모델 평가를 참조하세요.