自訂擷取器總覽

自訂擷取器會從特定類型的文件中擷取實體。例如,從菜單中擷取項目,或從履歷中擷取姓名和聯絡資訊。

總覽

自訂擷取器的目標是讓 Document AI 使用者為沒有預先訓練處理器的文件類型,建構自訂實體擷取解決方案。自訂擷取器包含版面配置感知深度學習模型 (適用於生成式 AI 和自訂模型) 和範本型模型的組合。

我該使用哪種訓練方法?

自訂擷取器提供三種不同模式,可支援各種用途。

訓練方法 文件範例 文件版面配置變化 任意形式的文字或段落 視變異性而定,達到可投入生產的品質所需的訓練文件數量
微調和基礎模型 (生成式 AI)。 合約、服務條款、月結單、銀行對帳單、提單、薪資單。 從高到低 (建議)。 高。 中型:0 到 50 份以上的文件。
自訂模型。 Model. 不同年度或供應商的類似表單 (例如 W9),但版面配置不同。 低至中等。 低。 高:10 到 100 份以上的文件。
範本。 版面配置固定的稅務表單 (例如表單 941 和 709)。 低。 低 (3 份文件)。

由於基礎模型通常只需要較少的訓練文件,因此建議您將其做為所有變數版面配置的第一個選項。

可信度分數

可信度分數會顯示模型將每個實體與預測值建立關聯的程度。值介於 0 到 1 之間,越接近 1,模型就越有信心該值對應到實體。這樣一來,使用者就能在值偏低時,為個別實體設定手動審查的觸發條件。例如判斷實體中的文字是「Hello, world!」還是「HeIIo vvorld!」。

這種做法的好處包括:找出可信度較低的個別實體、設定預測結果的使用門檻、選取最佳可信度門檻,以及開發新策略,訓練出準確度和可信度分數更高的模型。

如要進一步瞭解評估概念和指標,請參閱「評估成效」。