이 페이지에서는 인스턴스를 이미 설정했고 필요한 데이터 세트를 준비했다고 가정하고 AML AI 모델을 준비하는 단계를 안내합니다.
단계 개요
모델을 준비하는 프로세스는 다음 3단계로 이루어집니다.
1단계: 하이퍼파라미터 소스 선택을 포함한 엔진 구성
- 조정: 하이퍼파라미터 자동 조정
- 상속: 동일한 조정 버전 내에서 이전 엔진 버전으로 생성된 이전 엔진 구성에서 하이퍼파라미터를 상속합니다. 이 설정을 사용하면 새 모델 엔진 버전을 채택할 때마다 재조정하는 것을 피할 수 있습니다.
엔진 구성을 만들면 조정 또는 상속의 결과가 EngineConfig 리소스에 저장됩니다.
2단계: 모델 생성
3단계: 모델 평가
백테스트 결과 만들기는 지정된 달의 모델 성능을 분석하고 요약 결과를 BacktestResult 리소스에 저장합니다. 필요한 경우 예측 결과를 생성하면 모델의 당사자별 출력을 평가할 수 있습니다.
위 단계를 완료하고 모델 성능이 필요 사항을 충족하면 위험 점수 및 설명 기능 생성 및 모델 및 위험 거버넌스 준비 섹션의 안내를 참조하세요.
시작하기 전에
시작하기 전에 다음 사항이 필요합니다.
데이터 세트 요구사항
데이터 모델 및 스키마에 대한 자세한 안내는 AML AI용 데이터 준비 페이지를 참조하세요. 이 섹션에서는 엔진 조정, 학습, 평가에 사용된 데이터 세트가 함께 잘 작동하는지 확인하는 방법을 설명합니다.
데이터 세트 기간
조정, 학습, 백테스트, 예측 작업에 사용되는 각 데이터 세트에는 API 호출에 지정된 end_time 이전의 마지막 전체 캘린더 달의 끝까지의 기간에 대한 유효한 데이터가 포함되어야 합니다. 이 기간 길이는 테이블, 엔진 버전, 작업에 따라 다릅니다. 최소 기간은 데이터 범위 및 기간 이해에서 자세히 설명됩니다.
예를 들어 엔진을 v004.004 엔진 버전으로 조정하는 경우 거래 테이블은 최소 30개월 이상을 다루어야 합니다.
엔진, 학습, 평가(백테스트) 구성은 단일 데이터 세트로 완료할 수 있습니다. 다음 이미지를 참조하세요. 과적합을 방지하여 우수한 프로덕션 성능을 보장하려면 평가에 사용되는 기간(즉, 백테스트 결과 생성)이 학습에 사용되는 기간(즉, 모델 생성) 이후인지 확인해야 합니다.
예를 들어 백테스트에 기간 3개를 사용하고 학습에 2024년 2월 말까지의 기간(즉, 2024년 3월 초 종료 시간)을 사용하는 경우 백테스트에 2024년 5월 말까지의 기간(즉, 2024년 6월 초 종료 시간)을 사용할 수 있습니다.
데이터 세트 일관성
엔진 조정, 학습, 평가 단계에서 다른 데이터 세트를 사용할 때는 데이터 세트가 채워지는 필드와 채워지는 방법이 일관되도록 합니다. 이는 AML 모델의 안정성과 성능에 중요합니다.
마찬가지로 고품질의 위험 점수를 위해서는 모델을 사용하여 예측 결과를 만드는 데 사용되는 데이터 세트와 모델 학습에 사용된 데이터 세트와 일치해야 합니다.
특히 다음을 확인합니다.
- 동일한 논리를 사용하여 각 필드를 채웁니다. 필드를 채우는 데 사용되는 논리를 변경하면 모델 학습과 예측 또는 평가 간에 특성 편향이 발생할 수 있습니다.
- 동일하게 선택한 추천 필드가 채워집니다. 예를 들어 모델 학습 중에 채워진 필드를 삭제하면 모델에 중요한 특성이 평가 또는 예측 중에 편향되거나 누락될 수 있습니다.
동일한 논리를 사용하여 값을 제공합니다. PartySupplementaryData 테이블에서는 동일한 로직을 사용하여 각
party_supplementary_data_id
필드에 값을 제공합니다.- 동일한 데이터를 사용하지만
party_supplementary_data_id
값이 다른 경우 모델이 데이터를 잘못 사용합니다. 예를 들어 특정 필드가 한 데이터 세트에서는 PartySupplementaryData 테이블에서 ID5
를 사용하지만 다른 데이터 세트에서는 ID7
을 사용합니다. - 모델에 중요한
party_supplementary_data_id
값을 삭제하면 예측할 수 없는 효과가 발생할 수 있습니다. 예를 들어 한 데이터 세트에서는 ID3
이 PartySupplementaryData 테이블에서 사용되지만 다른 데이터 세트에서는 생략됩니다.
- 동일한 데이터를 사용하지만
이제 엔진 조정, 학습, 평가를 위한 데이터 세트가 준비되었습니다. 참고로 모델 작업은 수십 시간이 걸릴 수 있습니다. 작업이 아직 실행 중인지 또는 완료되었는지(실패 또는 성공) 확인하는 방법에 대한 자세한 내용은 장기 실행 작업 관리를 참조하세요.