Normalization

Pour de nombreux champs pris en charge spécifiques, Document AI renvoie également un entity.normalizedValue en plus du champ extrait brut obtenu via le textAnchor de chaque entité. Elle normalise le texte littéral. La normalisation divise souvent la valeur textuelle en sous-champs.

Il contient les données dans un format standardisé pour réduire le post-traitement et permettre la conversion dans le format sélectionné. Le mentionText, qui représente ce qui est littéralement dans le document, n'est jamais modifié par la normalisation.

Les champs normalisés appartiennent à l'une des catégories suivantes.

Valeurs normalisées dans la console

Dans la console Google Cloud, les champs normalisés sont annotés avec G. Exemple :

enrichissement
Exemple de champ normalisé affiché dans l'application Web.

Processeurs compatibles

Voici les processeurs et les champs compatibles avec l'enrichissement et la normalisation des entités:

Processeurs Champs normalisés

Analyseur de relevés bancaires

Catégorie Pré-entraînés
Type de solution Prêts
Fonctions OCR, extraction d'entités
Étape de version Disponibilité générale
État de l'accès Public
Détails complets du processeur Enregistrement détaillé
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item/transaction_deposit
  • table_item/transaction_deposit_date
  • table_item/transaction_withdrawal
  • table_item/transaction_withdrawal_date

Analyseur de passeports américains

Catégorie Pré-entraînés
Type de solution Identité
Fonctions OCR, extraction d'entités
Étape de version Disponibilité générale
État de l'accès Public
Détails complets du processeur Enregistrement détaillé
  • Date Of Birth
  • Expiration Date
  • Issue Date

Analyseur de fournisseurs d'énergie

Catégorie Pré-entraînés
Type de solution Approvisionnement
Fonctions OCR, extraction d'entités
Étape de version Disponibilité générale
État de l'accès Accès limité
Détails complets du processeur Enregistrement détaillé
  • adjusted_amount
  • amount_due
  • balance_transfer_amount
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • invoice_date
  • late_fee_amount
  • line_item/amount
  • line_item/quantity
  • line_item/tax_amount
  • line_item/unit_price
  • net_amount
  • prior_amount_due
  • prior_paid_amount
  • total_amount
  • total_tax_amount

Analyseur de vérification de documents d'identité

Catégorie Pré-entraînés
Type de solution Identité
Fonctions OCR, analyse de la qualité
Étape de version Aperçu
État de l'accès Public
Détails complets du processeur Enregistrement détaillé
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words

Analyseur de bulletins de salaire

Catégorie Pré-entraînés
Type de solution Prêts
Fonctions OCR, extraction d'entités
Étape de version Disponibilité générale
État de l'accès Public
Détails complets du processeur Enregistrement détaillé
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay
  • net_pay_ytd
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • start_date
  • vacation
  • vacation_ytd

Analyseur de permis de conduire américains

Catégorie Pré-entraînés
Type de solution Identité
Fonctions OCR, extraction d'entités
Étape de version Disponibilité générale
État de l'accès Public
Détails complets du processeur Enregistrement détaillé
  • Date Of Birth
  • Expiration Date
  • Issue Date

Analyseur de dépenses

Catégorie Pré-entraînés
Type de solution Approvisionnement
Fonctions OCR, extraction d'entités
Étape de version Disponibilité générale
État de l'accès Public
Détails complets du processeur Enregistrement détaillé
  • currency
  • total_amount
  • total_tax_amount
  • net_amount
  • receipt_date
  • purchase_time
  • start_date
  • end_date
  • line_item/amount
  • line_item/payment_date
  • line_item/payment_amount

Analyseur de factures

Catégorie Pré-entraînés
Type de solution Approvisionnement
Fonctions OCR, extraction d'entités
Étape de version Disponibilité générale
État de l'accès Public
Détails complets du processeur Enregistrement détaillé
  • amount_paid_since_last_invoice
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • net_amount
  • total_amount
  • total_tax_amount
  • line_item/amount
  • line_item/quantity
  • line_item/unit_price
  • vat/amount
  • vat/tax_amount
  • vat/tax_rate

Processeurs d'extraction

L'extracteur personnalisé prend en charge la normalisation de toutes les entités avec les types de données courants suivants dans Google Cloud: dateTime, currency, money et number.

Processeurs Types de données normalisés

Extracteur personnalisé

Catégorie Extraction
Type de solution Personnalisé
Fonctions OCR, extraction d'entités
Étape de version Disponibilité générale
État de l'accès Public
Détails complets du processeur Enregistrement détaillé
  • dateTime as STRING
  • currency as STRING
  • money as google.type.Money
  • number as FLOAT or INTEGER