文档分割器行为
分屏器处理器输出包含输入文档的分屏信息,包括置信度得分。Document AI API 会输出 Document
JSON 对象,并且输出格式使用 entities
字段来表示文档分块。其他信息取决于分屏器的具体类型。
Entity.type
指定文档分类。如需查看可识别的文件类型的完整列表,请参阅以下列表。Entity.pageAnchor.pageRefs[]
用于指定包含每个子文档的网页。请注意,pageRefs[].page
从 0 开始编号,是document.pages[]
字段中的索引。
拆分器不适用于拆分长度超过 30 页的逻辑文档。长度超过 30 页的逻辑文档(例如 40 页的银行对账单)可能会拆分为两份或更多份文档,并单独分类。
分屏符可识别页面边界,但不会实际为您拆分输入文档。Document AI Toolbox SDK 提供了一些实用函数,可根据分屏处理器的输出拆分输入文档。
识别出的文档类型
[1] 此表单的相应解析器不支持此文档类型。这意味着,拆分器可以识别和分类此类文档,但 Document AI 不提供用于提取信息的解析器。
输出示例
处理器 | 输出示例 |
---|
代码示例
分屏符可识别页面边界,但实际上不会为您拆分输入文档。您可以使用 Document AI 工具箱,通过页面边界来实际拆分 PDF 文件。 以下代码示例会在不拆分 PDF 的情况下打印页面范围:
Java
如需了解详情,请参阅 Document AI Java API 参考文档。
如需向 Document AI 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。
Node.js
如需了解详情,请参阅 Document AI Node.js API 参考文档。
如需向 Document AI 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。
Python
如需了解详情,请参阅 Document AI Python API 参考文档。
如需向 Document AI 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。
Document
中的页面边界拆分 PDF 文件。
Python
如需了解详情,请参阅 Document AI Python API 参考文档。
如需向 Document AI 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。