正規化

對於許多支援的特定欄位,除了透過每個實體的 textAnchor 取得的原始擷取欄位外,Document AI 也會傳回 entity.normalizedValue。它會將文字字面內容標準化。常規化通常會將文字值分割為子欄位。

這項功能可將資料以標準格式儲存,減少後續處理作業,並支援轉換為所選格式。mentionText 代表文件上的文字,不會因規格化而變更。

規格化欄位屬於下列任一類別。

控制台中的正規化值

在 Google Cloud 控制台中,系統會在經過正規化的欄位旁加上「G」註解。例如:

豐富
網路應用程式中顯示的標準化欄位範例。

支援的處理器

以下是支援實體強化和正規化的處理器和欄位:

處理器 已正規化的欄位

銀行對帳單剖析器

類別 預先訓練
解決方案類型 借貸
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
完整處理器詳細資料 詳細資料
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item/transaction_deposit
  • table_item/transaction_deposit_date
  • table_item/transaction_withdrawal
  • table_item/transaction_withdrawal_date

美國護照剖析器

類別 預先訓練
解決方案類型 身分識別
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
完整處理器詳細資料 詳細資料
  • Date Of Birth
  • Expiration Date
  • Issue Date

公用事業剖析器

類別 預先訓練
解決方案類型 採購
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 有限
完整處理器詳細資料 詳細資料
  • adjusted_amount
  • amount_due
  • balance_transfer_amount
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • invoice_date
  • late_fee_amount
  • line_item/amount
  • line_item/quantity
  • line_item/tax_amount
  • line_item/unit_price
  • net_amount
  • prior_amount_due
  • prior_paid_amount
  • total_amount
  • total_tax_amount

身分證明文件剖析器

類別 預先訓練
解決方案類型 身分識別
函式 OCR、品質分析
發布階段 正式發布版
存取狀態 公開
完整處理器詳細資料 詳細資料
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words

薪資單剖析器

類別 預先訓練
解決方案類型 借貸
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
完整處理器詳細資料 詳細資料
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay
  • net_pay_ytd
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • start_date
  • vacation
  • vacation_ytd

美國駕照剖析器

類別 預先訓練
解決方案類型 身分識別
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
完整處理器詳細資料 詳細資料
  • Date Of Birth
  • Expiration Date
  • Issue Date

費用剖析器

類別 預先訓練
解決方案類型 採購
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
完整處理器詳細資料 詳細資料
  • currency
  • total_amount
  • total_tax_amount
  • net_amount
  • receipt_date
  • purchase_time
  • start_date
  • end_date
  • line_item/amount
  • line_item/payment_date
  • line_item/payment_amount

應付憑據剖析器

類別 預先訓練
解決方案類型 採購
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
完整處理器詳細資料 詳細資料
  • amount_paid_since_last_invoice
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • net_amount
  • total_amount
  • total_tax_amount
  • line_item/amount
  • line_item/quantity
  • line_item/unit_price
  • vat/amount
  • vat/tax_amount
  • vat/tax_rate

擷取處理器

自訂擷取器支援使用下列 Google Cloud常見資料類型,對所有實體進行規範化:dateTimecurrencymoneynumber

處理器 正規化資料類型

Custom Extractor

類別 擷取
解決方案類型 自訂
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
完整處理器詳細資料 詳細資料
  • dateTime as STRING
  • currency as STRING
  • money as google.type.Money
  • number as FLOAT or INTEGER