正規化

對於許多支援的特定欄位,除了透過每個實體的 textAnchor 取得的原始擷取欄位外,Document AI 也會傳回 entity.normalizedValue。這項功能會將文字內容標準化,正規化通常會將文字值分成子欄位。

這項功能會以標準化格式提供資料,減少後續處理作業,並支援轉換為所選格式。代表文件實際內容的 mentionText 絕不會因正規化而變更。

標準化欄位屬於下列其中一個類別。

控制台中的正規化值

在 Google Cloud 控制台中,正規化欄位會以 G 註解。例如:

補充資料
網頁應用程式中顯示的範例標準化欄位。

支援的處理器

以下是支援實體擴充和正規化的處理器和欄位:

處理器 正規化欄位

銀行對帳單剖析器

類別 預先訓練
解決方案類型 借貸
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
處理器完整詳細資料 詳細項目
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item/transaction_deposit
  • table_item/transaction_deposit_date
  • table_item/transaction_withdrawal
  • table_item/transaction_withdrawal_date

美國護照剖析器

類別 預先訓練
解決方案類型 身分識別
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
處理器完整詳細資料 詳細項目
  • Date Of Birth
  • Expiration Date
  • Issue Date

公用事業剖析器

類別 預先訓練
解決方案類型 採購
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 有限
處理器完整詳細資料 詳細項目
  • adjusted_amount
  • amount_due
  • balance_transfer_amount
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • invoice_date
  • late_fee_amount
  • line_item/amount
  • line_item/quantity
  • line_item/tax_amount
  • line_item/unit_price
  • net_amount
  • prior_amount_due
  • prior_paid_amount
  • total_amount
  • total_tax_amount

身分證明文件剖析器

類別 預先訓練
解決方案類型 身分識別
函式 OCR、品質分析
發布階段 正式發布版
存取狀態 公開
處理器完整詳細資料 詳細項目
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words

薪資單剖析器

類別 預先訓練
解決方案類型 借貸
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
處理器完整詳細資料 詳細項目
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay
  • net_pay_ytd
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • start_date
  • vacation
  • vacation_ytd

美國駕照剖析器

類別 預先訓練
解決方案類型 身分識別
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
處理器完整詳細資料 詳細項目
  • Date Of Birth
  • Expiration Date
  • Issue Date

費用剖析器

類別 預先訓練
解決方案類型 採購
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
處理器完整詳細資料 詳細項目
  • currency
  • total_amount
  • total_tax_amount
  • net_amount
  • receipt_date
  • purchase_time
  • start_date
  • end_date
  • line_item/amount
  • line_item/payment_date
  • line_item/payment_amount

應付憑據剖析器

類別 預先訓練
解決方案類型 採購
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
處理器完整詳細資料 詳細項目
  • amount_paid_since_last_invoice
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • net_amount
  • total_amount
  • total_tax_amount
  • line_item/amount
  • line_item/quantity
  • line_item/unit_price
  • vat/amount
  • vat/tax_amount
  • vat/tax_rate

擷取處理器

自訂擷取器支援使用下列常見資料類型,將所有實體正規化: Google Cloud、dateTimecurrencymoneynumber

處理器 正規化資料類型

Custom Extractor

類別 擷取
解決方案類型 自訂
函式 OCR、實體擷取
發布階段 正式發布版
存取狀態 公開
處理器完整詳細資料 詳細項目
  • dateTime as STRING
  • currency as STRING
  • money as google.type.Money
  • number as FLOAT or INTEGER