추출 개요

Document AI는 다양한 사용 사례에 따라 문서에서 정보를 추출하는 여러 제품을 제공합니다.

  • 양식 파서
  • 맞춤 추출기: 다음과 같은 세 가지 모델링 유형을 제공합니다.

    • 기반 모델
    • 맞춤 모델 기반
    • 맞춤 템플릿 기반
  • 레이아웃 파서

양식 파서

양식 파서는 키-값 쌍 (KVP), 테이블, 선택 표시 (체크박스), 일반 필드를 추출하여 추출을 보강하고 자동화합니다. 기본적으로 최대 11개의 일반 항목과 체크박스를 추출할 수 있습니다. 양식 파서로 추출할 필드 (스키마)를 지정하지 않습니다. 이 모델은 문서의 각 페이지에서 관심 항목을 감지하고 반환합니다.

맞춤 추출기

맞춤 추출기는 스키마에서 정의한 항목을 추출하고 기반 모델, 맞춤 모델 기반, 맞춤 템플릿 기반의 세 가지 모델링 옵션을 제공합니다. 학습 데이터가 거의 없거나 없는 기반 모델에서 얻은 유망한 결과를 고려할 때 기반 모델을 첫 번째 옵션으로 시작하고 필요에 따라 다른 옵션을 시도해 보는 것이 좋습니다. 파운데이션 모델은 데이터 세트의 라벨이 지정된 문서 최대 5개를 기반으로 제로 샷 또는 퓨얼 샷 예측을 수행하고, 데이터 세트의 라벨이 지정된 문서가 10개를 초과하면 미세 조정된 예측을 수행합니다.

학습 방법 문서 예시 문서 레이아웃 변형 자유 형식 텍스트 또는 단락 변동성에 따라 프로덕션 준비 완료 품질을 위한 학습 문서 수
미세 조정 및 기반 모델 (생성형 AI) 계약서, 서비스 약관, 인보이스, 은행 명세서, 선하 증서, 급여 명세서 높음에서 낮음 (권장) 높음 중간: 문서 0~50개 이상
맞춤 모델 모델 연도 또는 공급업체에 따라 레이아웃이 다른 유사한 양식 (예: W9) 낮음~중간 낮음 높음: 10~100개 이상의 문서
템플릿 고정된 레이아웃의 세금 양식 (예: 941 및 709 양식) 없음 낮음 낮음 (문서 3개)

일반적으로 기반 모델은 학습 문서가 더 적게 필요하므로 모든 변수 레이아웃의 첫 번째 옵션으로 권장됩니다.

레이아웃 파서

레이아웃 파서는 다양한 형식의 문서를 구조화된 표현으로 변환하여 단락, 표, 목록과 같은 콘텐츠와 머리글, 페이지 헤더, 바닥글과 같은 구조적 요소에 액세스할 수 있도록 하고 다양한 생성형 AI 및 탐색 앱에서 정보 검색을 용이하게 하는 컨텍스트 인식 청크를 만듭니다.