Normalização

Para muitos campos específicos com suporte, o Document AI também retorna um entity.normalizedValue, além do campo extraído bruto recebido pelo textAnchor de cada entidade. Ele normaliza o texto literal. A normalização geralmente divide o valor do texto em subcampos.

Ele contém os dados em um formato padronizado para reduzir o pós-processamento e permitir a conversão para qualquer formato selecionado. O mentionText, que representa o que está literalmente no documento, nunca é alterado pela normalização.

Os campos normalizados pertencem a uma das seguintes categorias.

Valores normalizados no console

No console do Google Cloud, os campos normalizados são anotados com G. Exemplo:

enriquecimento
Exemplo de campo normalizado mostrado no aplicativo da Web.

Processadores compatíveis

Confira os processadores e campos que oferecem suporte ao enriquecimento e à normalização de entidades:

Processadores Campos normalizados

Analisador de extrato bancário

Categoria Pré-treinado
Tipo de solução Empréstimos
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Detalhes completos do processador Entrada detalhada
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item/transaction_deposit
  • table_item/transaction_deposit_date
  • table_item/transaction_withdrawal
  • table_item/transaction_withdrawal_date

Analisador de passaportes dos EUA

Categoria Pré-treinado
Tipo de solução Identidade
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Detalhes completos do processador Entrada detalhada
  • Date Of Birth
  • Expiration Date
  • Issue Date

Analisador de utilitário

Categoria Pré-treinado
Tipo de solução Aquisição
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Limitado
Detalhes completos do processador Entrada detalhada
  • adjusted_amount
  • amount_due
  • balance_transfer_amount
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • invoice_date
  • late_fee_amount
  • line_item/amount
  • line_item/quantity
  • line_item/tax_amount
  • line_item/unit_price
  • net_amount
  • prior_amount_due
  • prior_paid_amount
  • total_amount
  • total_tax_amount

Analisador de comprovação de documento de identidade

Categoria Pré-treinado
Tipo de solução Identidade
Funções OCR, análise de qualidade
Etapa de lançamento Visualizar
Status de acesso Pública
Detalhes completos do processador Entrada detalhada
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words

Analisador de holerite

Categoria Pré-treinado
Tipo de solução Empréstimos
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Detalhes completos do processador Entrada detalhada
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay
  • net_pay_ytd
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • start_date
  • vacation
  • vacation_ytd

Analisador de carteira de habilitação dos EUA

Categoria Pré-treinado
Tipo de solução Identidade
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Detalhes completos do processador Entrada detalhada
  • Date Of Birth
  • Expiration Date
  • Issue Date

Analisador de despesas

Categoria Pré-treinado
Tipo de solução Aquisição
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Detalhes completos do processador Entrada detalhada
  • currency
  • total_amount
  • total_tax_amount
  • net_amount
  • receipt_date
  • purchase_time
  • start_date
  • end_date
  • line_item/amount
  • line_item/payment_date
  • line_item/payment_amount

Analisador de faturas

Categoria Pré-treinado
Tipo de solução Aquisição
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Detalhes completos do processador Entrada detalhada
  • amount_paid_since_last_invoice
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • net_amount
  • total_amount
  • total_tax_amount
  • line_item/amount
  • line_item/quantity
  • line_item/unit_price
  • vat/amount
  • vat/tax_amount
  • vat/tax_rate

Processadores de extração

O extrator personalizado oferece suporte à normalização de todas as entidades com os seguintes tipos de dados comuns do Google Cloud: dateTime, currency, money e number.

Processadores Tipos de dados normalizados

Extrator personalizado

Categoria Extrair
Tipo de solução Personalizado
Funções OCR, Extração de entidades
Etapa de lançamento Disponibilidade geral
Status de acesso Pública
Detalhes completos do processador Entrada detalhada
  • dateTime as STRING
  • currency as STRING
  • money as google.type.Money
  • number as FLOAT or INTEGER