이 페이지에서는 모델 학습의 기반이 되는 개념을 간략히 설명합니다. AML AI 모델 리소스는 위험 점수 및 설명 기능을 생성하는 데 사용할 수 있는 학습된 모델을 나타냅니다.
학습 또는 재학습해야 하는 경우
AML AI는 모델 리소스를 만드는 과정에서 모델을 학습시킵니다. 모델을 평가(즉, 백테스트)하거나 예측 결과를 생성하는 데 사용하려면 먼저 모델을 학습시켜야 합니다.
최상의 성능을 달성하고 최신 모델을 유지하려면 매월 재학습하는 것이 좋습니다. 그러나 특정 엔진 버전은 최신 부 엔진 버전이 출시된 후 12개월 동안 예측 결과 생성을 지원합니다.
학습 방법
모델 학습(모델 만들기)을 수행하려면 모델 만들기 및 관리를 참조하세요.
특히 다음을 선택해야 합니다.
학습에 사용할 데이터:
데이터 세트와 데이터 세트 기간 내의 종료 시간을 지정합니다.
학습은 전체 월을 기준으로 라벨과 특성을 사용하지만 선택한 종료 시점의 월은 제외합니다. 자세한 내용은 데이터 세트 기간 범위를 참조하세요.
일관된 데이터 세트를 사용하여 생성된 엔진 구성:
엔진 구성을 참조하세요.
학습 출력
학습은 다음 작업을 하는 데 사용할 수 있는 모델 리소스를 생성합니다.
- 현재 알려진 참양성을 사용하여 모델 성능을 평가하는 데 사용되는 백테스트 결과를 만듭니다.
- 잠재적인 자금 세탁에 대한 새로운 케이스 검토를 시작할 준비가 되면 사용되는 예측 결과를 만듭니다.
모델 메타데이터에는 데이터 세트 일관성을 평가하는 데 사용할 수 있는 missingness
측정항목이 포함되어 있습니다(예: 여러 작업에서 특성 계열의 누락 값 비교).
측정항목 이름 | 측정항목 설명 | 측정항목 값 예시 |
---|---|---|
누락 |
각 특성 계열의 모든 특성에서 누락된 값의 비중입니다. 이상적으로 모든 AML AI 특성 계열의 누락은 0에 가깝습니다. 해당 특성 계열의 기반이 되는 데이터를 통합에 사용할 수 없는 경우 예외가 발생할 수 있습니다. 조정, 학습, 평가, 예측에서 어느 한 특성 계열 값의 커다란 변화는 사용된 데이터 세트의 불일치를 나타낼 수 있습니다. |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "missingnessValue": 0.00, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "missingnessValue": 0.45, }, ], } |
중요도 |
모델에 대한 특성 계열의 중요도를 보여주는 측정항목입니다. 값이 클수록 모델에서 특정 계열 사용이 더 중요함을 나타냅니다. 모델에 사용되지 않는 특성 계열은 중요도가 0입니다. 중요도 값은 계열 편향 결과에 대한 작업의 우선순위를 지정할 때 사용할 수 있습니다. 예를 들어 편향 값이 동일하더라도 모델에 대한 중요도가 더 높은 계열은 보다 긴급하게 해결해야 합니다. |
{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "importanceValue": 459761000000, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "importanceValue": 27492, }, ], } |
모델 메타데이터에는 테스트 세트의 재현율 측정항목이 포함되지 않습니다. 특정 기간(예: 테스트 세트)에 대한 재현율 측정을 생성하려면 모델 평가를 참조하세요.