本頁面由 Cloud Translation API 翻譯而成。

自訂擷取器總覽

自訂擷取器會從特定類型的文件中擷取實體。例如，從菜單中擷取項目，或從履歷中擷取姓名和聯絡資訊。

總覽

自訂擷取器的目標是讓 Document AI 使用者為沒有預先訓練處理器的文件類型，建構自訂實體擷取解決方案。自訂擷取器包含版面配置感知深度學習模型 (適用於生成式 AI 和自訂模型) 和範本型模型的組合。

自訂擷取器提供三種不同模式，可支援各種用途。

訓練方法		文件範例	文件版面配置變化	任意形式的文字或段落	視變異性而定，達到可投入生產的品質所需的訓練文件數量
微調和基礎模型 (生成式 AI)。		合約、服務條款、月結單、銀行對帳單、提單、薪資單。	從高到低 (建議)。	高。	中型：0 到 50 份以上的文件。
自訂模型。	Model.	不同年度或供應商的類似表單 (例如 W9)，但版面配置不同。	低至中等。	低。	高：10 到 100 份以上的文件。
自訂模型。	範本。	版面配置固定的稅務表單 (例如表單 941 和 709)。	無	低。	低 (3 份文件)。

由於基礎模型通常只需要較少的訓練文件，因此建議您將其做為所有變數版面配置的第一個選項。

可信度分數會顯示模型將每個實體與預測值建立關聯的程度。值介於 0 到 1 之間，越接近 1，模型就越有信心該值對應到實體。這樣一來，使用者就能在值偏低時，為個別實體設定手動審查的觸發條件。例如判斷實體中的文字是「Hello, world!」還是「HeIIo vvorld!」。

這種做法的好處包括：找出可信度較低的個別實體、設定預測結果的使用門檻、選取最佳可信度門檻，以及開發新策略，訓練出準確度和可信度分數更高的模型。

如要進一步瞭解評估概念和指標，請參閱「評估成效」。