이 페이지는 Cloud Translation API를 통해 번역되었습니다.

커스텀 추출기 개요

맞춤 추출기는 특정 유형의 문서에서 항목을 추출합니다. 예를 들어 메뉴의 항목을 추출하거나 이력서에서 이름과 연락처 정보를 추출할 수 있습니다.

개요

맞춤 추출기의 목표는 Document AI 사용자가 선행 학습된 프로세서를 사용할 수 없는 새로운 문서 유형에 맞춤 항목 추출 솔루션을 구축할 수 있도록 하는 것입니다. 맞춤 추출기에는 레이아웃 인식 딥 러닝 모델 (생성형 AI 및 맞춤 모델용)과 템플릿 기반 모델이 포함됩니다.

어떤 학습 방법을 사용해야 하나요?

맞춤 추출기는 세 가지 모드로 다양한 사용 사례를 지원합니다.

학습 방법		문서 예	문서 레이아웃 변형	자유 형식 텍스트 또는 단락	변동성에 따라 프로덕션 준비 품질을 위한 학습 문서 수
미세 조정 및 기반 모델 (생성형 AI)		계약서, 서비스 약관, 인보이스, 은행 명세서, 선하 증서, 급여 명세서	높은 순서에서 낮은 순서로 (권장)	높음.	중간: 0~50개 이상의 문서
맞춤 모델입니다.	모델	연도 또는 공급업체에 따라 레이아웃이 다른 유사한 양식 (예: W9)	낮음~중간	낮음	높음: 10~100개 이상의 문서
맞춤 모델입니다.	템플릿	고정 레이아웃이 있는 세금 양식 (예: 941 양식 및 709 양식)	없음	낮음	낮음 (문서 3개)

파운데이션 모델은 일반적으로 학습 문서가 적게 필요하므로 모든 가변 레이아웃의 첫 번째 옵션으로 권장됩니다.

신뢰도 점수

신뢰도 점수는 모델이 각 항목을 예측 값과 얼마나 밀접하게 연관시키는지를 전달합니다. 값은 0과 1 사이이며 1에 가까울수록 값이 항목에 해당한다는 모델의 신뢰도가 높아집니다. 이를 통해 사용자는 값이 낮은 경우 개별 항목의 수동 검토를 위한 트리거를 설정할 수 있습니다. 예를 들어 엔티티의 텍스트가 'Hello, world!'인지 'HeIIo vvorld!'인지 확인합니다.

이 접근 방식의 이점을 통해 신뢰도가 낮은 개별 항목을 파악하고, 예측이 사용되는 기준을 설정하고, 최적의 신뢰도 기준을 선택하고, 정확도와 신뢰도 점수가 더 높은 모델을 학습시키기 위한 새로운 전략을 개발할 수 있습니다.

평가 개념 및 측정항목에 대한 자세한 내용은 성능 평가를 참고하세요.

양식 파서

커스텀 추출기 메커니즘