规范化

对于许多受支持的特定字段,除了通过每个实体的 textAnchor 获取的原始提取字段外,Document AI 还会返回 entity.normalizedValue。它会对字面量文本进行标准化处理。标准化通常会将文本值拆分为子字段。

这包含采用标准化格式的数据,以减少后期处理,并支持转换为所选的任何格式。mentionText 表示文档中的字面内容,永远不会因规范化而发生变化。

标准化字段属于以下某个类别。

控制台中的标准化值

在 Google Cloud 控制台中,经过标准化处理的字段带有 G 注释。例如:

丰富
Web 应用中显示的归一化字段示例。

支持的处理器

以下是支持实体丰富和标准化的处理器和字段:

处理器 标准化字段

银行对账单解析器

类别 预先训练
解决方案类型 放款
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
完整的处理器详细信息 详细条目
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item/transaction_deposit
  • table_item/transaction_deposit_date
  • table_item/transaction_withdrawal
  • table_item/transaction_withdrawal_date

美国护照解析器

类别 预先训练
解决方案类型 身份
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
完整的处理器详细信息 详细条目
  • Date Of Birth
  • Expiration Date
  • Issue Date

Utility Parser

类别 预先训练
解决方案类型 采购
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 受限
完整的处理器详细信息 详细条目
  • adjusted_amount
  • amount_due
  • balance_transfer_amount
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • invoice_date
  • late_fee_amount
  • line_item/amount
  • line_item/quantity
  • line_item/tax_amount
  • line_item/unit_price
  • net_amount
  • prior_amount_due
  • prior_paid_amount
  • total_amount
  • total_tax_amount

身份证件证明解析器

类别 预先训练
解决方案类型 身份
函数 光学字符识别、质量分析
发布阶段 预览
访问状态 公开
完整的处理器详细信息 详细条目
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words

工资单解析器

类别 预先训练
解决方案类型 放款
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
完整的处理器详细信息 详细条目
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay
  • net_pay_ytd
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • start_date
  • vacation
  • vacation_ytd

美国驾照解析器

类别 预先训练
解决方案类型 身份
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
完整的处理器详细信息 详细条目
  • Date Of Birth
  • Expiration Date
  • Issue Date

Expense Parser

类别 预先训练
解决方案类型 采购
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
完整的处理器详细信息 详细条目
  • currency
  • total_amount
  • total_tax_amount
  • net_amount
  • receipt_date
  • purchase_time
  • start_date
  • end_date
  • line_item/amount
  • line_item/payment_date
  • line_item/payment_amount

账单解析器

类别 预先训练
解决方案类型 采购
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
完整的处理器详细信息 详细条目
  • amount_paid_since_last_invoice
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • net_amount
  • total_amount
  • total_tax_amount
  • line_item/amount
  • line_item/quantity
  • line_item/unit_price
  • vat/amount
  • vat/tax_amount
  • vat/tax_rate

提取处理器

自定义提取器支持对以下 Google Cloud常见数据类型的所有实体进行标准化:dateTimecurrencymoneynumber

处理器 标准化数据类型

自定义提取器

类别 提取
解决方案类型 自定义
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
完整的处理器详细信息 详细条目
  • dateTime as STRING
  • currency as STRING
  • money as google.type.Money
  • number as FLOAT or INTEGER