Normalisierung

Für viele unterstützte Felder gibt Document AI zusätzlich zum extrahierten Rohfeld, das über das textAnchor jeder Entität abgerufen wird, auch ein entity.normalizedValue zurück. Der Text wird normalisiert. Bei der Normalisierung wird der Textwert häufig in Unterfelder unterteilt.

Sie enthalten die Daten in einem standardisierten Format, um die Nachbearbeitung zu reduzieren und die Umwandlung in das ausgewählte Format zu ermöglichen. Das mentionText, das den wörtlichen Inhalt des Dokuments darstellt, wird durch die Normalisierung nie geändert.

Normalisierte Felder gehören zu einer der folgenden Kategorien.

Normalisierte Werte in der Console

In der Google Cloud Console sind die normalisierten Felder mit G gekennzeichnet. Beispiel:

Anreicherung
Beispiel für ein normalisiertes Feld, das in der Webanwendung angezeigt wird.

Unterstützte Prozessoren

Hier sind die Prozessoren und Felder, die die Entitätsanreicherung und ‑normalisierung unterstützen:

Prozessoren Normalisierte Felder

Kontoauszugsparser

Kategorie Vortrainiert
Lösungstyp Kreditvergabe
Funktionen OCR, Entitätsextraktion
Release-Phase General Availability
Zugriffsstatus Öffentlich
Vollständige Prozessordetails Detaillierter Eintrag
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item/transaction_deposit
  • table_item/transaction_deposit_date
  • table_item/transaction_withdrawal
  • table_item/transaction_withdrawal_date

Parser für US-amerikanische Reisepässe

Kategorie Vortrainiert
Lösungstyp Identität
Funktionen OCR, Entitätsextraktion
Release-Phase General Availability
Zugriffsstatus Öffentlich
Vollständige Prozessordetails Detaillierter Eintrag
  • Date Of Birth
  • Expiration Date
  • Issue Date

Dienstprogrammparser

Kategorie Vortrainiert
Lösungstyp Beschaffung
Funktionen OCR, Entitätsextraktion
Release-Phase General Availability
Zugriffsstatus Begrenzt
Vollständige Prozessordetails Detaillierter Eintrag
  • adjusted_amount
  • amount_due
  • balance_transfer_amount
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • invoice_date
  • late_fee_amount
  • line_item/amount
  • line_item/quantity
  • line_item/tax_amount
  • line_item/unit_price
  • net_amount
  • prior_amount_due
  • prior_paid_amount
  • total_amount
  • total_tax_amount

Parser für den Identitätsnachweis

Kategorie Vortrainiert
Lösungstyp Identität
Funktionen OCR, Qualitätsanalyse
Release-Phase Vorschau
Zugriffsstatus Öffentlich
Vollständige Prozessordetails Detaillierter Eintrag
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words

Lohnabrechnungsparser

Kategorie Vortrainiert
Lösungstyp Kreditvergabe
Funktionen OCR, Entitätsextraktion
Release-Phase General Availability
Zugriffsstatus Öffentlich
Vollständige Prozessordetails Detaillierter Eintrag
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay
  • net_pay_ytd
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • start_date
  • vacation
  • vacation_ytd

Parser für US-Führerschein

Kategorie Vortrainiert
Lösungstyp Identität
Funktionen OCR, Entitätsextraktion
Release-Phase General Availability
Zugriffsstatus Öffentlich
Vollständige Prozessordetails Detaillierter Eintrag
  • Date Of Birth
  • Expiration Date
  • Issue Date

Kostenparser

Kategorie Vortrainiert
Lösungstyp Beschaffung
Funktionen OCR, Entitätsextraktion
Release-Phase General Availability
Zugriffsstatus Öffentlich
Vollständige Prozessordetails Detaillierter Eintrag
  • currency
  • total_amount
  • total_tax_amount
  • net_amount
  • receipt_date
  • purchase_time
  • start_date
  • end_date
  • line_item/amount
  • line_item/payment_date
  • line_item/payment_amount

Rechnungsparser

Kategorie Vortrainiert
Lösungstyp Beschaffung
Funktionen OCR, Entitätsextraktion
Release-Phase General Availability
Zugriffsstatus Öffentlich
Vollständige Prozessordetails Detaillierter Eintrag
  • amount_paid_since_last_invoice
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • net_amount
  • total_amount
  • total_tax_amount
  • line_item/amount
  • line_item/quantity
  • line_item/unit_price
  • vat/amount
  • vat/tax_amount
  • vat/tax_rate

Extraktions-Prozessoren

Der benutzerdefinierte Extractor unterstützt die Normalisierung aller Entitäten mit den folgenden gängigen Datentypen von Google Cloud: dateTime, currency, money und number.

Prozessoren Normalisierte Datentypen

Benutzerdefinierter Extrahierer

Kategorie Extrahieren
Lösungstyp Benutzerdefiniert
Funktionen OCR, Entitätsextraktion
Release-Phase General Availability
Zugriffsstatus Öffentlich
Vollständige Prozessordetails Detaillierter Eintrag
  • dateTime as STRING
  • currency as STRING
  • money as google.type.Money
  • number as FLOAT or INTEGER