Normalización

En muchos campos específicos admitidos, Document AI también devuelve un entity.normalizedValue además del campo extraído sin procesar obtenido a través del textAnchor de cada entidad. Normaliza el texto literal. La normalización suele dividir el valor de texto en subcampos.

Contiene los datos en un formato estandarizado para reducir el posprocesamiento y permitir la conversión al formato que se seleccione. El mentionText, que representa lo que aparece literalmente en el documento, nunca se modifica con la normalización.

Los campos normalizados pertenecen a una de las siguientes categorías.

Valores normalizados en la consola

En la Google Cloud consola, los campos normalizados se anotan con G. Por ejemplo:

enriquecimiento
Campo normalizado de ejemplo que se muestra en la aplicación web.

Procesadores admitidos

Estos son los procesadores y los campos que admiten la normalización y el enriquecimiento de entidades:

Procesadores Campos normalizados

Analizador de extractos bancarios

Categoría Preentrenado
Tipo de solución Préstamos
Funciones OCR y extracción de entidades
Fase de lanzamiento Disponibilidad general
Estado del acceso Público
Detalles completos del procesador Entrada detallada
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item/transaction_deposit
  • table_item/transaction_deposit_date
  • table_item/transaction_withdrawal
  • table_item/transaction_withdrawal_date

Analizador de pasaportes de EE. UU.

Categoría Preentrenado
Tipo de solución Identidad
Funciones OCR y extracción de entidades
Fase de lanzamiento Disponibilidad general
Estado del acceso Público
Detalles completos del procesador Entrada detallada
  • Date Of Birth
  • Expiration Date
  • Issue Date

Analizador de utilidades

Categoría Preentrenado
Tipo de solución Aprovisionamiento
Funciones OCR y extracción de entidades
Fase de lanzamiento Disponibilidad general
Estado del acceso Limitado
Detalles completos del procesador Entrada detallada
  • adjusted_amount
  • amount_due
  • balance_transfer_amount
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • invoice_date
  • late_fee_amount
  • line_item/amount
  • line_item/quantity
  • line_item/tax_amount
  • line_item/unit_price
  • net_amount
  • prior_amount_due
  • prior_paid_amount
  • total_amount
  • total_tax_amount

Analizador de verificación de documentos de identidad

Categoría Preentrenado
Tipo de solución Identidad
Funciones OCR y análisis de calidad
Fase de lanzamiento Disponibilidad general
Estado del acceso Público
Detalles completos del procesador Entrada detallada
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words

Analizador de nóminas

Categoría Preentrenado
Tipo de solución Préstamos
Funciones OCR y extracción de entidades
Fase de lanzamiento Disponibilidad general
Estado del acceso Público
Detalles completos del procesador Entrada detallada
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay
  • net_pay_ytd
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • start_date
  • vacation
  • vacation_ytd

Analizador de carnés de conducir de EE. UU.

Categoría Preentrenado
Tipo de solución Identidad
Funciones OCR y extracción de entidades
Fase de lanzamiento Disponibilidad general
Estado del acceso Público
Detalles completos del procesador Entrada detallada
  • Date Of Birth
  • Expiration Date
  • Issue Date

Analizador de gastos

Categoría Preentrenado
Tipo de solución Aprovisionamiento
Funciones OCR y extracción de entidades
Fase de lanzamiento Disponibilidad general
Estado del acceso Público
Detalles completos del procesador Entrada detallada
  • currency
  • total_amount
  • total_tax_amount
  • net_amount
  • receipt_date
  • purchase_time
  • start_date
  • end_date
  • line_item/amount
  • line_item/payment_date
  • line_item/payment_amount

Análisis de facturas

Categoría Preentrenado
Tipo de solución Aprovisionamiento
Funciones OCR y extracción de entidades
Fase de lanzamiento Disponibilidad general
Estado del acceso Público
Detalles completos del procesador Entrada detallada
  • amount_paid_since_last_invoice
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • net_amount
  • total_amount
  • total_tax_amount
  • line_item/amount
  • line_item/quantity
  • line_item/unit_price
  • vat/amount
  • vat/tax_amount
  • vat/tax_rate

Procesadores de extracción

El extractor personalizado admite la normalización de todas las entidades con los siguientes Google Cloud tipos de datos comunes: dateTime, currency, money y number.

Procesadores Tipos de datos normalizados

Extractor personalizado

Categoría Extraer
Tipo de solución Personalizado
Funciones OCR y extracción de entidades
Fase de lanzamiento Disponibilidad general
Estado del acceso Público
Detalles completos del procesador Entrada detallada
  • dateTime as STRING
  • currency as STRING
  • money as google.type.Money
  • number as FLOAT or INTEGER