맞춤 추출기는 특정 유형의 문서에서 항목을 추출합니다. 예를 들어 메뉴의 항목을 추출하거나 이력서에서 이름과 연락처 정보를 추출할 수 있습니다.
개요
맞춤 추출기의 목표는 Document AI 사용자가 선행 학습된 프로세서를 사용할 수 없는 새로운 문서 유형에 맞춤 항목 추출 솔루션을 구축할 수 있도록 하는 것입니다. 맞춤 추출기에는 레이아웃 인식 딥 러닝 모델 (생성형 AI 및 맞춤 모델용)과 템플릿 기반 모델이 포함됩니다.
어떤 학습 방법을 사용해야 하나요?
맞춤 추출기는 세 가지 모드로 다양한 사용 사례를 지원합니다.
학습 방법
문서 예
문서 레이아웃 변형
자유 형식 텍스트 또는 단락
변동성에 따라 프로덕션 준비 품질을 위한 학습 문서 수
미세 조정 및 기반 모델 (생성형 AI)
계약서, 서비스 약관, 인보이스, 은행 명세서, 선하 증서, 급여 명세서
높은 순서에서 낮은 순서로 (권장)
높음.
중간: 0~50개 이상의 문서
맞춤 모델입니다.
모델
연도 또는 공급업체에 따라 레이아웃이 다른 유사한 양식 (예: W9)
낮음~중간
낮음
높음: 10~100개 이상의 문서
템플릿
고정 레이아웃이 있는 세금 양식 (예: 941 양식 및 709 양식)
없음
낮음
낮음 (문서 3개)
파운데이션 모델은 일반적으로 학습 문서가 적게 필요하므로 모든 가변 레이아웃의 첫 번째 옵션으로 권장됩니다.
신뢰도 점수
신뢰도 점수는 모델이 각 항목을 예측 값과 얼마나 밀접하게 연관시키는지를 전달합니다. 값은 0과 1 사이이며 1에 가까울수록 값이 항목에 해당한다는 모델의 신뢰도가 높아집니다.
이를 통해 사용자는 값이 낮은 경우 개별 항목의 수동 검토를 위한 트리거를 설정할 수 있습니다. 예를 들어 엔티티의 텍스트가 'Hello, world!'인지 'HeIIo vvorld!'인지 확인합니다.
이 접근 방식의 이점을 통해 신뢰도가 낮은 개별 항목을 파악하고, 예측이 사용되는 기준을 설정하고, 최적의 신뢰도 기준을 선택하고, 정확도와 신뢰도 점수가 더 높은 모델을 학습시키기 위한 새로운 전략을 개발할 수 있습니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[[["\u003cp\u003eCustom extractors are designed to identify and extract specific entities from various document types, including menus and resumes, for which pre-trained processors may not exist.\u003c/p\u003e\n"],["\u003cp\u003eThe custom extractor employs a combination of layout-aware deep learning models and template-based models to accommodate diverse document structures.\u003c/p\u003e\n"],["\u003cp\u003eThree training methods are available for the custom extractor: fine-tuning with foundation models, custom models, and template-based models, each suited for different levels of document layout variability.\u003c/p\u003e\n"],["\u003cp\u003eFoundation models are the preferred training option for documents with variable layouts, as they typically require fewer training documents compared to other methods.\u003c/p\u003e\n"],["\u003cp\u003eThe confidence score, ranging from zero to one, indicates the model's certainty in associating a value with a predicted entity, enabling users to set review thresholds and improve model accuracy.\u003c/p\u003e\n"]]],[],null,["# Custom extractor overview\n=========================\n\nCustom extractor extracts entities from documents of a particular type. For\nexample, it can extract the items in a menu or the name and contact information\nfrom a resume.\n\nOverview\n--------\n\nThe goal of the custom extractor is to enable Document AI users to build\ncustom entity extraction solutions for new document\ntypes for which no pre-trained processors are available. Custom extractor includes\na combination of layout-aware deep learning models (for generative AI and custom\nmodels) and template-based models.\n\nWhich training method should I use?\n-----------------------------------\n\nCustom extractor supports a wide range of use cases with three different modes.\n\nBecause foundation models typically require fewer training documents, they're\nrecommended as the first option for all variable layouts.\n\nConfidence score\n----------------\n\nThe confidence score communicates how strongly your model associates each entity\nwith the predicted value. The value is between zero and one, the closer it is to\none, the higher the model's confidence that the value corresponds to the entity.\nThis allows users to set triggers for manual review of individual entities when\nthe value is low. For example, determining whether the text in an entity is\n\"Hello, world!\" or \"HeIIo vvorld!\"\n\nThe benefits of this approach allow for spotting individual entities with low\nconfidence, setting thresholds for which predictions are used, selecting the\noptimal [confidence threshold](/document-ai/docs/evaluate#confidence_threshold), and development\nof new strategies for training models with higher accuracy and confidence scores.\n\nFor more information on evaluation concepts and metrics, see [Evaluate\nPerformance](/document-ai/docs/evaluate#all-labels)"]]