문서 분할기 동작
분할 프로세서 출력에는 신뢰 점수를 비롯하여 입력 문서의 분할 정보가 포함됩니다. Document AI API는 Document
JSON 객체를 출력하며, 출력 형식은 문서 분할을 나타내는 데 entities
필드를 사용합니다. 추가 정보는 특정 스플리터 유형에 따라 다릅니다.
Entity.type
는 문서 분류를 지정합니다. 식별할 수 있는 문서 유형의 전체 목록은 다음 목록을 참고하세요.Entity.pageAnchor.pageRefs[]
는 각 하위 문서가 포함된 페이지를 지정합니다.pageRefs[].page
는 0부터 시작하며document.pages[]
필드의 색인입니다.
분할 도구는 30페이지가 넘는 논리적 문서를 분할하도록 설계되지 않았습니다. 30페이지가 넘는 논리적 문서 (예: 40페이지의 은행 명세서)는 두 개 이상의 문서로 분할되어 별도로 분류될 수 있습니다.
분할기는 페이지 경계를 식별하지만 실제로 입력 문서를 분할하지는 않습니다. Document AI Toolbox SDK는 분할기 프로세서의 출력을 기반으로 입력 문서를 분할할 수 있는 유틸리티 함수를 제공합니다.
확인된 문서 유형
[1] 이 양식의 상응하는 파서가 이 문서 유형을 지원하지 않습니다. 즉, 분할기는 이 유형의 문서를 식별하고 분류할 수 있지만 Document AI는 정보를 추출하는 파서를 제공하지 않습니다.
출력 예
프로세서 | 출력 샘플 |
---|
코드 샘플
분할기는 페이지 경계를 식별하지만 실제로 입력 문서를 분할하지는 않습니다. Document AI 도구 상자를 사용하여 페이지 경계를 사용하여 PDF 파일을 물리적으로 분할할 수 있습니다. 다음 코드 샘플은 PDF를 분할하지 않고 페이지 범위를 인쇄합니다.
Java
자세한 내용은 Document AI Java API 참조 문서를 참고하세요.
Document AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Node.js
자세한 내용은 Document AI Node.js API 참조 문서를 참고하세요.
Document AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Python
자세한 내용은 Document AI Python API 참조 문서를 참고하세요.
Document AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Document
의 페이지 경계를 사용하여 PDF 파일을 분할합니다.
Python
자세한 내용은 Document AI Python API 참조 문서를 참고하세요.
Document AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.