커스텀 추출기 개요
맞춤 추출기는 특정 유형의 문서에서 항목을 추출합니다. 예를 들어 메뉴의 항목을 추출하거나 이력서에서 이름과 연락처 정보를 추출할 수 있습니다.
개요
맞춤 추출기의 목표는 Document AI 사용자가 선행 학습된 프로세서를 사용할 수 없는 새 문서 유형에 맞는 맞춤 항목 추출 솔루션을 빌드할 수 있도록 지원하는 것입니다. 맞춤 추출기에는 레이아웃 인식 딥 러닝 모델 (생성형 AI 및 맞춤 모델용)과 템플릿 기반 모델의 조합이 포함됩니다.
어떤 학습 방법을 사용해야 하나요?
맞춤 추출기는 세 가지 모드를 사용하여 다양한 사용 사례를 지원합니다.
학습 방법 | 문서 예시 | 문서 레이아웃 변형 | 자유 형식 텍스트 또는 단락 | 변동성에 따라 프로덕션 준비 완료 품질을 위한 학습 문서 수 | |
---|---|---|---|---|---|
미세 조정 및 기반 모델 (생성형 AI) | 계약서, 서비스 약관, 인보이스, 은행 명세서, 선하 증서, 급여 명세서 | 높음에서 낮음 (권장) | 높음 | 중간: 문서 0~50개 이상 | |
맞춤 모델 | 모델 | 연도 또는 공급업체에 따라 레이아웃이 다른 유사한 양식 (예: W9) | 낮음~중간 | 낮음 | 높음: 10~100개 이상의 문서 |
템플릿 | 고정된 레이아웃의 세금 양식 (예: 941 및 709 양식) | 없음 | 낮음 | 낮음 (문서 3개) |
일반적으로 기반 모델은 학습 문서가 더 적게 필요하므로 모든 변수 레이아웃의 첫 번째 옵션으로 권장됩니다.
신뢰도 점수
신뢰도 점수는 모델이 각 항목을 예측 값과 얼마나 밀접하게 연관시키는지를 전달합니다. 값은 0과 1 사이이며 1에 가까울수록 값이 항목에 해당한다는 모델의 신뢰도가 높습니다. 이를 통해 사용자는 값이 낮을 때 개별 항목을 수동으로 검토하기 위한 트리거를 설정할 수 있습니다. 예를 들어 항목의 텍스트가 'Hello, world!'인지 'HeIIo vvorld!'인지 확인합니다.
이 접근 방식의 이점은 신뢰도가 낮은 개별 항목을 감지하고, 예측이 사용되는 기준을 설정하고, 최적의 신뢰도 기준을 선택하고, 더 높은 정확도와 신뢰도 점수를 갖는 모델을 학습하기 위한 새로운 전략을 개발할 수 있다는 것입니다.
평가 개념 및 측정항목에 관한 자세한 내용은 성능 평가를 참고하세요.