모델 준비 개요

이 페이지에서는 인스턴스를 이미 설정했고 필요한 데이터 세트를 준비했다고 가정하고 AML AI 모델을 준비하는 단계를 안내합니다.

단계 개요

모델을 준비하는 프로세스는 다음 3단계로 이루어집니다.

위 단계를 완료하고 모델 성능이 필요 사항을 충족하면 위험 점수 및 설명 기능 생성모델 및 위험 거버넌스 준비 섹션의 안내를 참조하세요.

시작하기 전에

시작하기 전에 다음 사항이 필요합니다.

데이터 세트 요구사항

데이터 모델 및 스키마에 대한 자세한 안내는 AML AI용 데이터 준비 페이지를 참조하세요. 이 섹션에서는 엔진 조정, 학습, 평가에 사용된 데이터 세트가 함께 잘 작동하는지 확인하는 방법을 설명합니다.

데이터 세트 기간

각 작업의 최소 데이터 세트 범위는 데이터 범위 및 기간의 이해에서 다룹니다. 요약하자면, 최소 18개월의 핵심 기간 외에 표에 따라 0~24개월의 전환 확인 기간이 필요합니다.

예를 들어 엔진 조정의 경우 트랜잭션 테이블이 최소 42개월(18개월의 핵심 기간 및 24개월의 전환 확인 기간)을 다루어야 합니다.

엔진, 학습, 평가(백테스트) 구성은 단일 데이터 세트로 완료할 수 있습니다. 다음 이미지를 참조하세요. 과적합을 방지하여 우수한 프로덕션 성능을 보장하기 위해서는 분리되고 학습용 핵심 기간(즉, 모델 생성)보다 최근인 평가용 핵심 기간(즉, 백테스트 결과 생성)을 사용해야 합니다.

조정, 학습, 백테스트를 위한 데이터 세트 기간 범위

데이터 세트 일관성

엔진 조정, 학습, 평가 단계에서 다른 데이터 세트를 사용할 때는 데이터 세트가 채워지는 필드와 채워지는 방법이 일관되도록 합니다. 이는 AML 모델 안정성 및 성능에 중요합니다.

마찬가지로 고품질의 위험 점수를 위해서는 모델을 사용하여 예측 결과를 만드는 데 사용되는 데이터 세트와 모델 학습에 사용된 데이터 세트와 일치해야 합니다.

특히 다음을 확인합니다.

  • 동일한 논리를 사용하여 각 필드를 채웁니다. 필드를 채우는 데 사용되는 논리를 변경하면 모델 학습과 예측 또는 평가 간에 특성 편향이 발생할 수 있습니다.
  • 동일하게 선택한 추천 필드가 채워집니다. 예를 들어 모델 학습 중에 채워진 필드를 삭제하면 모델에 중요한 특성이 평가 또는 예측 중에 편향되거나 누락될 수 있습니다.
  • 동일한 논리를 사용하여 값을 제공합니다. PartySupplementaryData 테이블에서는 동일한 로직을 사용하여 각 party_supplementary_data_id 필드에 값을 제공합니다.

    • 같은 데이터를 사용하지만 party_supplementary_data_id 값이 다르면 모델이 데이터를 잘못 사용하게 됩니다. 예를 들어 특정 필드가 한 데이터 세트에서는 PartySupplementaryData 테이블에서 ID 5를 사용하지만 다른 데이터 세트에서는 ID 7을 사용합니다.
    • 모델에 중요한 party_supplementary_data_id 값을 삭제하면 예측할 수 없는 효과가 발생할 수 있습니다. 예를 들어 한 데이터 세트에서는 ID 3PartySupplementaryData 테이블에서 사용되지만 다른 데이터 세트에서는 생략됩니다.

이제 엔진 조정, 학습, 평가를 위한 데이터 세트가 준비되었습니다. 참고로 모델 작업은 수십 시간이 걸릴 수 있습니다. 작업이 아직 실행 중인지 또는 완료되었는지(실패 또는 성공) 확인하는 방법에 대한 자세한 내용은 장기 실행 작업 관리를 참조하세요.