커스텀 모델 학습 및 추출을 사용하면 생성형 AI를 사용하지 않고도 문서에 맞게 설계된 자체 모델을 빌드할 수 있습니다. 생성형 AI를 사용하지 않고 학습된 모델의 모든 측면을 제어하려는 경우에 적합합니다.
데이터 세트 구성
프로세서 버전을 학습시키거나 업트레이닝하거나 평가하려면 문서 데이터 세트가 필요합니다.
Document AI 프로세서는 인간과 마찬가지로 예시에서 학습합니다. 데이터 세트는 성능 측면에서 프로세서 안정성을 개선합니다.
학습 데이터 세트
모델과 정확성을 개선하려면 문서에서 데이터 세트를 학습합니다. 모델은 정답이 있는 문서로 구성됩니다. 새 모델을 학습시키려면 문서가 3개 이상 필요합니다.
테스트 데이터 세트
테스트 데이터 세트는 모델에서 F1 점수 (정확성)를 생성하는 데 사용됩니다. 정답이 포함된 문서로 구성됩니다. 모델이 얼마나 정확한지 확인하기 위해 정답을 사용하여 모델의 예측 (모델에서 추출한 필드)을 올바른 답변과 비교합니다. 테스트 데이터 세트에는 문서가 3개 이상 있어야 합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-08-18(UTC)"],[[["\u003cp\u003eCustom model training and extraction allows building models tailored to specific documents without generative AI, providing complete control over the trained model.\u003c/p\u003e\n"],["\u003cp\u003eA document dataset, consisting of at least three documents, is essential for training, up-training, or evaluating a processor version, as it acts as the source for the model's learning and stability.\u003c/p\u003e\n"],["\u003cp\u003eTraining a model involves using a dataset of documents with ground-truth to improve accuracy, while the test dataset compares the model's predictions against ground truth to measure its accuracy using an F1 score.\u003c/p\u003e\n"],["\u003cp\u003eCreating and evaluating a custom processor involves defining fields, importing documents with auto-labeling, training a new version, and evaluating performance metrics like F1, precision, and recall.\u003c/p\u003e\n"],["\u003cp\u003eAuto-labeling, which can be enhanced with descriptive property information for each entity, uses the foundation model to predict labels and improve extraction accuracy for specific document structures.\u003c/p\u003e\n"]]],[],null,[]]