分割器處理器輸出內容包含輸入文件的分割資訊,包括信賴分數。Document AI API 會輸出 Document
JSON 物件,輸出格式則會使用 entities
欄位表示文件分割。其他資訊取決於特定類型的分配器。
Entity.type
指定文件分類。如需可識別的文件類型完整清單,請參閱下列清單。Entity.pageAnchor.pageRefs[]
指定包含各個子文件的頁面。請注意,pageRefs[].page
是從零開始計算,且是document.pages[]
欄位的索引。
以下是已辨識文件的典型 JSON 分割器回應,指出輸入檔案的第二和第三頁為 form_140
類別文件:
{
"textAnchor": {
"textSegments": [
{
"startIndex": "5543",
"endIndex": "10470"
}
]
},
"type": "form_1040",
"confidence": 0.8983272,
"pageAnchor": {
"pageRefs": [
{
"page": "1",
"confidence": 0.8983272
},
{
"page": "2",
"confidence": 0.9636311
}
]
}
},
與自訂分類器不同,分割器不會提供多個類別和信賴度分數。
分割器無法分割超過 30 頁的邏輯文件。如果邏輯文件超過 30 頁 (例如 40 頁的銀行對帳單),可能會分成兩份以上的文件,並分別歸類。
分隔符會標示頁面邊界,但不會實際分割輸入文件。 Document AI Toolbox SDK 提供公用程式函式,可根據分割器處理器的輸出內容分割輸入文件。
除非已證明分割預測結果的準確度符合業務需求,否則強烈建議在實際分割檔案前,先由專人審查分割預測結果。
識別的文件類型
本節詳細說明預先訓練的分割器處理器可辨識的文件類別。
[1] 這份表單的對應剖析器不支援這個文件類型。這表示分割器可以識別及分類這類文件,但 Document AI 不提供剖析器來擷取資訊。
輸出範例
處理器 | 輸出內容範例 |
---|
程式碼範例
分割器會識別頁面邊界,但不會實際分割輸入文件。您可以使用 Document AI Toolbox,依據頁面界線實際分割 PDF 檔案。下列程式碼範例會列印頁面範圍,但不會分割 PDF:
Java
詳情請參閱 Document AI Java API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Node.js
詳情請參閱 Document AI Node.js API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Python
詳情請參閱 Document AI Python API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Document
的頁面界線分割 PDF 檔案。
Python
詳情請參閱 Document AI Python API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。