Enrichissement

Document AI utilise Enterprise Knowledge Graph pour normaliser et enrichir les résultats d'extraction d'entités (pour les champs compatibles). Par exemple, les adresses 123 Main St Apt 1 et 123 Main street # 1 peuvent être normalisées en une seule adresse normalisée.

Pour chaque champ compatible, Document AI renvoie également un normalizedValue en plus du champ extrait brut, ce qui permet de normaliser le texte littéral. Il contient les données dans un format standardisé pour réduire le post-traitement.

La plupart des données appartiennent à l'une des catégories suivantes:

  • Valeur monétaire
  • Date
  • Horodatage
  • Adresse
  • Booléen
  • Integer
  • Float

Exemple de réponse

Les valeurs enrichies se trouvent dans le champ entities.normalizedValue, comme illustré dans l'exemple tronqué suivant:

{
  "entities": [
    {
      "textAnchor": {
        "textSegments": [ ... ],
        "content": "Google Singapore"
      },
      "type": "employer_name",
      "mentionText": "Google Singapore",
      "confidence": 0.69933707,
      "pageAnchor": {
        "pageRefs": [
          {
            "boundingPoly": {
              "normalizedVertices": [ ... ]
            }
          }
        ]
      },
      "id": "9",
      "normalizedValue": {
        "text": "Google Asia Pacific, Singapore"
      }
    }
  ]
}

Dans l'exemple, l'employer_name d'origine "Google Singapour" a été normalisé en "Google Asie-Pacifique, Singapour".

Dans la console Google Cloud, les champs enrichis et normalisés sont annotés avec G. Exemple :

enrichissement
Exemple de champ normalisé affiché dans l'application Web.

Processeurs compatibles

Voici les processeurs et les champs compatibles avec l'enrichissement des entités.

Processeurs Champs enrichis

Analyseur de relevés bancaires

Catégorie Pré-entraînés
Type de solution Prêts
Fonctions OCR, extraction d'entités
Étape de version Disponibilité générale
État de l'accès Public
Détails complets du processeur Enregistrement détaillé
  • bank_address
  • bank_name

Analyseur de formulaires W2

Catégorie Pré-entraînés
Type de solution Prêts
Fonctions OCR, extraction d'entités
Étape de version Disponibilité générale
État de l'accès Public
Détails complets du processeur Enregistrement détaillé
  • EmployerNameAndAddress
  • EIN

Analyseur de bulletins de salaire

Catégorie Pré-entraînés
Type de solution Prêts
Fonctions OCR, extraction d'entités
Étape de version Disponibilité générale
État de l'accès Public
Détails complets du processeur Enregistrement détaillé
  • employer_address
  • employer_name

Analyseur de dépenses

Catégorie Pré-entraînés
Type de solution Approvisionnement
Fonctions OCR, extraction d'entités
Étape de version Disponibilité générale
État de l'accès Public
Détails complets du processeur Enregistrement détaillé
  • supplier_address
  • supplier_name
  • supplier_phone

Analyseur de factures

Catégorie Pré-entraînés
Type de solution Approvisionnement
Fonctions OCR, extraction d'entités
Étape de version Disponibilité générale
État de l'accès Public
Détails complets du processeur Enregistrement détaillé
  • supplier_address
  • supplier_name
  • supplier_phone