이 페이지에서는 인스턴스를 이미 설정했고 필요한 데이터 세트를 준비했다고 가정하고 AML AI 모델을 준비하는 단계를 안내합니다.
단계 개요
모델을 준비하는 프로세스는 다음 3단계로 이루어집니다.
1단계: 하이퍼파라미터 소스 선택을 포함한 엔진 구성
- 조정: 하이퍼파라미터 자동 조정
- 상속: 동일한 조정 버전 내에서 이전 엔진 버전으로 생성된 이전 엔진 구성에서 하이퍼파라미터를 상속합니다. 이 설정을 사용하면 새 모델 엔진 버전을 채택할 때마다 재조정하는 것을 피할 수 있습니다.
엔진 구성을 만들면 조정 또는 상속의 결과가 EngineConfig 리소스에 저장됩니다.
2단계: 모델 생성
3단계: 모델 평가
백테스트 결과 만들기는 지정된 달의 모델 성능을 분석하고 요약 결과를 BacktestResult 리소스에 저장합니다. 필요한 경우 예측 결과를 생성하면 모델의 당사자별 출력을 평가할 수 있습니다.
위 단계를 완료하고 모델 성능이 필요 사항을 충족하면 위험 점수 및 설명 기능 생성 및 모델 및 위험 거버넌스 준비 섹션의 안내를 참조하세요.
시작하기 전에
시작하기 전에 다음 사항이 필요합니다.
데이터 세트 요구사항
데이터 모델 및 스키마에 대한 자세한 안내는 AML AI용 데이터 준비 페이지를 참조하세요. 이 섹션에서는 엔진 조정, 학습, 평가에 사용된 데이터 세트가 함께 잘 작동하는지 확인하는 방법을 설명합니다.
데이터 세트 기간
각 작업의 최소 데이터 세트 범위는 데이터 범위 및 기간의 이해에서 다룹니다. 요약하면, 동일한 데이터 세트의 모든 작업을 포함하기 위한 최소 18개월의 핵심 기간에 더하여 테이블에 따라 0~24개월의 전환 확인 기간이 필요합니다. 개별 작업에 더 짧은 데이터 세트를 사용할 수 있습니다. 예를 들어 엔진 구성을 재사용하고 새 조정을 수행할 필요가 없는 경우가 여기에 해당합니다.
예를 들어 엔진 조정의 경우 트랜잭션 테이블이 최소 42개월(18개월의 핵심 기간 및 24개월의 전환 확인 기간)을 다루어야 합니다.
엔진, 학습, 평가(백테스트) 구성은 단일 데이터 세트로 완료할 수 있습니다. 다음 이미지를 참조하세요. 과적합을 방지하여 우수한 프로덕션 성능을 보장하기 위해서는 분리되고 학습용 핵심 기간(즉, 모델 생성)보다 최근인 평가용 핵심 기간(즉, 백테스트 결과 생성)을 사용해야 합니다.
데이터 세트 일관성
엔진 조정, 학습, 평가 단계에서 다른 데이터 세트를 사용할 때는 데이터 세트가 채워지는 필드와 채워지는 방법이 일관되도록 합니다. 이는 AML 모델의 안정성과 성능에 중요합니다.
마찬가지로 고품질의 위험 점수를 위해서는 모델을 사용하여 예측 결과를 만드는 데 사용되는 데이터 세트와 모델 학습에 사용된 데이터 세트와 일치해야 합니다.
특히 다음을 확인합니다.
- 동일한 논리를 사용하여 각 필드를 채웁니다. 필드를 채우는 데 사용되는 논리를 변경하면 모델 학습과 예측 또는 평가 간에 특성 편향이 발생할 수 있습니다.
- 동일하게 선택한 추천 필드가 채워집니다. 예를 들어 모델 학습 중에 채워진 필드를 삭제하면 모델에 중요한 특성이 평가 또는 예측 중에 편향되거나 누락될 수 있습니다.
동일한 논리를 사용하여 값을 제공합니다. PartySupplementaryData 테이블에서는 동일한 로직을 사용하여 각
party_supplementary_data_id
필드에 값을 제공합니다.- 동일한 데이터를 사용하지만
party_supplementary_data_id
값이 다른 경우 모델이 데이터를 잘못 사용합니다. 예를 들어 특정 필드가 한 데이터 세트에서는 PartySupplementaryData 테이블에서 ID5
를 사용하지만 다른 데이터 세트에서는 ID7
을 사용합니다. - 모델에 중요한
party_supplementary_data_id
값을 삭제하면 예측할 수 없는 효과가 발생할 수 있습니다. 예를 들어 한 데이터 세트에서는 ID3
이 PartySupplementaryData 테이블에서 사용되지만 다른 데이터 세트에서는 생략됩니다.
- 동일한 데이터를 사용하지만
이제 엔진 조정, 학습, 평가를 위한 데이터 세트가 준비되었습니다. 참고로 모델 작업은 수십 시간이 걸릴 수 있습니다. 작업이 아직 실행 중인지 또는 완료되었는지(실패 또는 성공) 확인하는 방법에 대한 자세한 내용은 장기 실행 작업 관리를 참조하세요.