擷取總覽

Document AI 提供多種產品,可從文件中擷取資訊,適用於不同用途:

表單剖析器

表單剖析器會擷取鍵/值組合 (KVP)、表格、選取標記 (核取方塊) 和一般欄位,以擴增及自動擷取資料。這項功能最多可從文件中擷取 11 個一般實體和核取方塊。您不需要指定要使用表單剖析器擷取的欄位 (結構定義)。模型會偵測並傳回文件每頁中感興趣的實體。

自訂擷取器

自訂擷取器會擷取您在結構定義中定義的實體,並提供三種模型選項:基礎模型、以自訂模型為準,以及以自訂範本為準。基礎模型只需極少或完全不需要訓練資料,就能產生令人滿意的結果,因此我們建議您先使用基礎模型,再視需要嘗試其他選項。基礎模型會根據資料集中最多 5 份已加上標籤的文件,進行零樣本或少樣本預測;如果資料集中有超過 10 份已加上標籤的文件,則會進行微調預測。

訓練方法 文件範例 文件版面配置變化 任意形式的文字或段落 視變異性而定,達到可投入生產的品質所需的訓練文件數量
微調和基礎模型 (生成式 AI)。 合約、服務條款、月結單、銀行對帳單、提單、薪資單。 從高到低 (建議)。 高。 中型:0 到 50 份以上的文件。
自訂模型。 Model. 不同年度或供應商的類似表單 (例如 W9),但版面配置不同。 低至中等。 低。 高:10 到 100 份以上的文件。
範本。 版面配置固定的稅務表單 (例如表單 941 和 709)。 低。 低 (3 份文件)。

由於基礎模型通常只需要較少的訓練文件,因此建議您將其做為所有變數版面配置的第一個選項。

版面配置剖析器

版面配置剖析器可將各種格式的文件轉換為結構化表示法,讓段落、表格、清單等內容,以及標題、頁首和頁尾等結構化元素都能存取,並建立內容認知分塊,以便在各種生成式 AI 和探索應用程式中檢索資訊。