自訂擷取

您可以透過自訂模型訓練和擷取功能,自行建構專屬文件的模型,而無須使用生成式 AI。如果您不想使用生成式 AI,且想控制訓練模型的所有層面,這會是理想的做法。

資料集設定

如要訓練、進階訓練或評估處理器版本,必須使用文件資料集。Document AI 處理器會從範例學習,就像人類一樣。資料集可提升處理器效能方面的穩定性。

訓練資料集

如要改善模型和準確度,請使用文件訓練資料集。模型由真值文件組成。訓練新模型至少需要三份文件。

測試資料集

模型會使用測試資料集產生 F1 分數 (準確度)。這個資料集由含有實際值的文件組成。如要查看模型正確的頻率,請使用真值比較模型的預測結果 (從模型中擷取的欄位) 與正確答案。測試資料集至少須包含三份文件。

開始前

如果尚未啟用,請啟用帳單Document AI API

建構及評估自訂模型

請先建構,然後評估自訂處理器。

  1. 建立處理器,並定義要擷取的欄位,這很重要,因為這會影響擷取品質。

  2. 設定資料集位置:選取預設選項資料夾「Google 代管」。這項作業可能會在建立處理器後不久自動完成。

  3. 前往「Build」分頁,然後選取已啟用自動加上標籤功能的「Import Documents」 (請參閱「使用基礎模型自動加上標籤」)。訓練自訂模型時,訓練集中至少需要 10 份文件,測試集中則至少需要 10 份文件。

  4. 訓練模型:

    1. 選取「訓練新版本」,並為處理器版本命名。
    2. 前往「顯示進階選項」,然後選取「以模型為準」選項。

    custom-based-extraction-1

  5. 評估:

    • 前往「評估與測試」,選取剛訓練的版本,然後選取「查看完整評估」

    custom-based-extraction-2

    • 您現在會看到整份文件和各個欄位的指標,例如 F1、精確度和召回率
    • 判斷效能是否符合實際工作環境目標。如果不符合,請重新評估訓練和測試集,通常會在訓練測試集中加入難以剖析的文件。
  6. 將新版本設為預設版本。

    1. 前往「管理版本」
    2. 前往 選單,然後選取「設為預設」

    custom-based-extraction-3

模型現在已部署,且傳送至此處理器的文件現在會使用您的自訂版本。您想評估模型的效能,看看是否需要進一步訓練。

評估參考資料

評估引擎可執行完全比對或模糊比對。在完全比對的情況下,擷取的值必須與實際值完全相符,否則會計為遺漏。

模糊比對擷取結果如果有細微差異 (例如大小寫差異),仍會視為符合條件。您可以在「評估」畫面變更這項設定。

custom-based-extraction-4

使用基礎模型自動加上標籤

基礎模型能精準地擷取各種文件類型的欄位,但您也可以提供其他訓練資料,提高模型處理特定文件結構的準確率。

Document AI 會使用您定義的標籤名稱和先前的註解,透過自動加上標籤功能為大量文件加上標籤。

  1. 建立自訂處理器後,請前往「開始使用」分頁。
  2. 選取「建立新欄位」
  3. 請提供描述性名稱,並填寫說明欄位。您可以透過屬性說明為每個實體提供額外背景資訊、洞察資料和相關知識,以提升擷取準確度和效能。

custom-based-extraction-5

  1. 前往「Build」分頁,然後選取「Import documents」

    custom-based-extraction-6

  2. 選取文件路徑,以及要匯入文件的集合。勾選自動加上標籤核取方塊,然後選取基礎模型。

  3. 在「Build」分頁中,選取「Manage Dataset」。您應該會看到已匯入的文件。選取其中一份文件。

    custom-based-extraction-7

您現在會看到模型預測結果,以紫色標示。

  1. 查看模型預測的每個標籤,確認標籤正確無誤。如果缺少欄位,請一併新增。

custom-based-extraction-8

  1. 文件審查完畢後,請選取「標示為已加上標籤」。文件現在已可供模型使用。確認文件位於測試訓練集。