추출 개요
Document AI는 다양한 사용 사례에 따라 문서에서 정보를 추출하는 여러 제품을 제공합니다.
양식 파서
양식 파서는 키-값 쌍 (KVP), 테이블, 선택 표시 (체크박스), 일반 필드를 추출하여 추출을 보강하고 자동화합니다. 기본적으로 최대 11개의 일반 항목과 체크박스를 추출할 수 있습니다. 양식 파서로 추출할 필드 (스키마)를 지정하지 않습니다. 이 모델은 문서의 각 페이지에서 관심 항목을 감지하고 반환합니다.
맞춤 추출기
맞춤 추출기는 스키마에서 정의한 항목을 추출하고 기반 모델, 맞춤 모델 기반, 맞춤 템플릿 기반의 세 가지 모델링 옵션을 제공합니다. 학습 데이터가 거의 없거나 없는 기반 모델에서 얻은 유망한 결과를 고려할 때 기반 모델을 첫 번째 옵션으로 시작하고 필요에 따라 다른 옵션을 시도해 보는 것이 좋습니다. 파운데이션 모델은 데이터 세트의 라벨이 지정된 문서 최대 5개를 기반으로 제로 샷 또는 퓨얼 샷 예측을 수행하고, 데이터 세트의 라벨이 지정된 문서가 10개를 초과하면 미세 조정된 예측을 수행합니다.
학습 방법 | 문서 예시 | 문서 레이아웃 변형 | 자유 형식 텍스트 또는 단락 | 변동성에 따라 프로덕션 준비 완료 품질을 위한 학습 문서 수 | |
---|---|---|---|---|---|
미세 조정 및 기반 모델 (생성형 AI) | 계약서, 서비스 약관, 인보이스, 은행 명세서, 선하 증서, 급여 명세서 | 높음에서 낮음 (권장) | 높음 | 중간: 문서 0~50개 이상 | |
맞춤 모델 | 모델 | 연도 또는 공급업체에 따라 레이아웃이 다른 유사한 양식 (예: W9) | 낮음~중간 | 낮음 | 높음: 10~100개 이상의 문서 |
템플릿 | 고정된 레이아웃의 세금 양식 (예: 941 및 709 양식) | 없음 | 낮음 | 낮음 (문서 3개) |
일반적으로 기반 모델은 학습 문서가 더 적게 필요하므로 모든 변수 레이아웃의 첫 번째 옵션으로 권장됩니다.
레이아웃 파서
레이아웃 파서는 다양한 형식의 문서를 구조화된 표현으로 변환하여 단락, 표, 목록과 같은 콘텐츠와 머리글, 페이지 헤더, 바닥글과 같은 구조적 요소에 액세스할 수 있도록 하고 다양한 생성형 AI 및 탐색 앱에서 정보 검색을 용이하게 하는 컨텍스트 인식 청크를 만듭니다.