추출 개요

Document AI는 다양한 사용 사례에 맞게 문서에서 정보를 추출하는 여러 제품을 제공합니다.

  • 양식 파서
  • 세 가지 모델링 유형을 제공하는 맞춤 추출기

    • 파운데이션 모델
    • 맞춤 모델 기반
    • 맞춤 템플릿 기반
  • 레이아웃 파서

양식 파서

양식 파서는 키-값 쌍 (KVP), 표, 선택 표시 (체크박스), 일반 필드를 추출하여 추출을 보강하고 자동화합니다. 기본적으로 최대 11개의 일반 항목과 체크박스를 추출할 수 있습니다. 양식 파서로 추출할 필드 (스키마)를 지정하지 않습니다. 모델은 문서의 각 페이지에서 관심 있는 항목을 감지하고 반환합니다.

맞춤 추출기

커스텀 추출기는 스키마에 정의된 항목을 추출하며 기반 모델, 맞춤 모델 기반, 맞춤 템플릿 기반의 세 가지 모델링 옵션을 제공합니다. 학습 데이터가 거의 또는 전혀 없는 기반 모델에서 유망한 결과가 도출되므로 기반 모델을 첫 번째 옵션으로 시작하고 필요에 따라 다른 옵션을 사용해 보는 것이 좋습니다. 파운데이션 모델은 데이터 세트의 최대 5개 라벨이 지정된 문서를 기반으로 제로샷에서 퓨샷 예측을 수행하고, 데이터 세트의 10개 이상의 라벨이 지정된 문서를 사용하여 예측을 미세 조정합니다.

학습 방법 문서 예 문서 레이아웃 변형 자유 형식 텍스트 또는 단락 변동성에 따라 프로덕션 준비 품질을 위한 학습 문서 수
미세 조정 및 기반 모델 (생성형 AI) 계약서, 서비스 약관, 인보이스, 은행 명세서, 선하 증서, 급여 명세서 높은 순서에서 낮은 순서로 (권장) 높음. 중간: 0~50개 이상의 문서
맞춤 모델입니다. 모델 연도 또는 공급업체에 따라 레이아웃이 다른 유사한 양식 (예: W9) 낮음~중간 낮음 높음: 10~100개 이상의 문서
템플릿 고정 레이아웃이 있는 세금 양식 (예: 941 양식 및 709 양식) 없음 낮음 낮음 (문서 3개)

파운데이션 모델은 일반적으로 학습 문서가 적게 필요하므로 모든 가변 레이아웃의 첫 번째 옵션으로 권장됩니다.

레이아웃 파서

레이아웃 파서는 다양한 형식의 문서를 구조화된 표현으로 변환하여 단락, 표, 목록과 같은 콘텐츠와 제목, 페이지 헤더, 바닥글과 같은 구조적 요소에 액세스할 수 있도록 하고, 다양한 생성형 AI 및 탐색 앱에서 정보 검색을 용이하게 하는 컨텍스트 인식 청크를 만듭니다.