補充資料

Document AI 會使用 Enterprise Knowledge Graph,正規化及充實實體擷取結果 (適用於支援的欄位)。舉例來說,地址 123 Main St Apt 1123 Main street # 1 可以正規化為相同的標準化地址。

除了原始擷取的欄位外,Document AI 也會針對每個支援的欄位傳回 normalizedValue,並將字面文字正規化。這項資料採用標準化格式,可減少後續處理作業。

大多數資料屬於下列其中一個類別:

  • 金額
  • 日期
  • 時間戳記
  • 地址
  • 布林值
  • 整數
  • 浮點值

回應範例

您可以在 entities.normalizedValue 欄位中找到經過擴充的值,如下列截斷的範例所示:

{
  "entities": [
    {
      "textAnchor": {
        "textSegments": [ ... ],
        "content": "Google Singapore"
      },
      "type": "employer_name",
      "mentionText": "Google Singapore",
      "confidence": 0.69933707,
      "pageAnchor": {
        "pageRefs": [
          {
            "boundingPoly": {
              "normalizedVertices": [ ... ]
            }
          }
        ]
      },
      "id": "9",
      "normalizedValue": {
        "text": "Google Asia Pacific, Singapore"
      }
    }
  ]
}

在範例中,原始的「Google Singapore」employer_name已正規化為「Google Asia Pacific, Singapore」。

在 Google Cloud 控制台中,經過擴充和正規化的欄位會標示 G。例如:

補充資料
網頁應用程式中顯示的範例標準化欄位。

支援的處理器

以下是支援實體擴充功能的處理器和欄位。

處理器 經過補充的欄位

銀行對帳單剖析器

類別 預先訓練
解決方案類型 借貸
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
處理器完整詳細資料 詳細項目
  • bank_address
  • bank_name

W-2 表單剖析器

類別 預先訓練
解決方案類型 借貸
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
處理器完整詳細資料 詳細項目
  • EmployerNameAndAddress
  • EIN

薪資單剖析器

類別 預先訓練
解決方案類型 借貸
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
處理器完整詳細資料 詳細項目
  • employer_address
  • employer_name

費用剖析器

類別 預先訓練
解決方案類型 採購
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
處理器完整詳細資料 詳細項目
  • supplier_address
  • supplier_name
  • supplier_phone

應付憑據剖析器

類別 預先訓練
解決方案類型 採購
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
處理器完整詳細資料 詳細項目
  • supplier_address
  • supplier_name
  • supplier_phone