擷取總覽

Document AI 提供多種產品,可從文件中擷取資訊,用於不同用途:

表單剖析器

表單剖析器會擷取鍵/值組合 (KVP)、表格、選取標記 (核取方塊) 和一般欄位,以便擴充及自動擷取資料。它可以從預設值中擷取最多 11 個一般實體和核取方塊。您未指定要使用表單剖析器擷取的欄位 (結構定義)。模型會從每個文件頁面中偵測並傳回實體。

自訂擷取器

自訂擷取器會擷取您在結構定義中定義的實體,並提供三種建模選項:基礎模型、以自訂模型為準和以自訂範本為準。基礎模型幾乎不需訓練資料就能產生不錯的結果,因此我們建議您先從基礎模型開始,視需要再嘗試其他選項。基礎模型會根據資料集中最多 5 份標記文件,執行零到少量樣本預測,並針對資料集中超過 10 份標記文件進行精修預測。

訓練方法 文件範例 文件版面配置變化 自由格式文字或段落 可供實際使用且品質良好的訓練文件數量 (視變化程度而定)
微調和基礎模型 (生成式 AI)。 合約、服務條款、帳單、銀行對帳單、提單、薪資單。 由高至低 (建議)。 高。 中型:0 至 50 份以上文件。
自訂模型。 Model. 不同年份或供應商的類似表單 (例如 W9),其版面配置有所差異。 低至中等。 低。 高:10 到 100 份以上文件。
範本。 版面配置固定的稅務表單 (例如表單 941 和 709)。 低。 低 (3 份文件)。

由於基礎模型通常只需要較少的訓練文件,因此建議您將其設為所有變數版面配置的第一個選項。

版面配置剖析器

版面配置剖析器會將各種格式的文件轉換為結構化表示法,讓使用者存取段落、表格、清單等內容,以及標題、頁面標頭和頁尾等結構元素,並建立情境感知分塊,以便在各種生成式 AI 和探索應用程式中檢索資訊。