Traiter des documents avec l'analyseur de formulaires

L'outil d'analyse des formulaires extrait des paires clé-valeur, des tableaux, des marques de sélection (comme des cases à cocher), des champs génériques et du texte pour augmenter et automatiser le traitement des documents.

Vous pouvez envisager d'utiliser le Form Parser plutôt que les autres analyseurs lorsque le cas d'utilisation implique :

  • Traitement des formulaires structurés : il excelle dans l'extraction de paires clé/valeur à partir de formulaires bien définis qui ressemblent à des formulaires conventionnels avec des champs vides à remplir, comme name: __. Le modèle pré-entraîné de l'analyseur de formulaires offre une grande précision pour les champs courants tels que les noms, les dates et les adresses.
  • L'extraction flexible de tableaux est nécessaire : l'analyseur de formulaires extrait les données des tableaux simples (sans cellules qui s'étendent sur plusieurs lignes ou colonnes) qui ressemblent à des tableaux. Aucune formation n'est nécessaire (ni possible). Pour l'extraction de tables entraînées, l'extracteur personnalisé peut être utilisé avec un champ parent contenant des champs enfants de colonne (cellule).
  • Besoin d'efficacité : évitez de créer et de gérer des analyseurs d'extraction, en particulier pour les tâches d'extraction à volume élevé et variées.

Fonctionnalités d'extraction de données

Voici les fonctionnalités de l'analyseur de formulaires :

  • Paire clé/valeur : il s'agit d'ensembles de deux éléments dans un document (une étiquette ou une clé et les données correspondantes (une valeur)). Vous pouvez utiliser directement les paires clé/valeur (si les clés sont cohérentes) ou créer une logique personnalisée pour résoudre les clés variées en informations structurées cohérentes.

  • Entités génériques : analysez 11 champs différents à partir de documents prêts à l'emploi. Exemples :

    • email
    • phone
    • url
    • date_time
    • address
    • person
    • organization
    • quantity
    • price
    • id
    • page_number
  • Texte et mise en page : utilisez notre dernier moteur de reconnaissance optique des caractères pour extraire le texte et les informations de mise en page. Cela inclut le texte intégré à des PDF numériques (version 2.1 uniquement) ou le texte d'images.

  • Tableaux : détectez et extrayez les tableaux des images et des PDF.

  • Cases à cocher : détecteur de marques de sélection de haute qualité, qui extrait les cases à cocher des images et des sorties PDF sous forme de paires clé/valeur, en utilisant le texte le plus proche de la case à cocher, avec un valueType indiquant si elle est cochée ou non.

Langues et régions

  • Form Parser 2.0 est compatible avec plus de 200 langues. En savoir plus
  • Nous proposons une assistance pour les fonctionnalités dans huit régions. En savoir plus

Versions de modèle

Les versions de processeur suivantes sont compatibles avec cette fonctionnalité. Pour en savoir plus, consultez Gérer les versions de l'outil de traitement.

Limites

  • Les compressions JPEG antérieures pour TIFF ne sont pas acceptées. Type d'encapsulation JPEG défini par la spécification TIFF version 6.0.

  • Le modèle de cases à cocher n'est pas compatible avec l'analyse des boutons radio. Il est possible que certaines cases à cocher détectées n'aient pas de clés correspondantes.

  • Le modèle n'analyse pas de manière fiable une paire clé/valeur avec une valeur non renseignée, comme un formulaire vide.

  • L'analyse des paires clé/valeur dans les documents rédigés dans certaines langues peut être de qualité inférieure à celle des langues latines.

Traiter des documents avec l'analyseur de formulaires

Ce guide de démarrage rapide vous présente l'analyseur de formulaires dans Document AI. Dans ce guide de démarrage rapide, vous allez utiliser la console Google Cloud pour configurer votre projet Google Cloud et les autorisations, créer un analyseur de formulaires, puis envoyer une requête à Document AI pour traiter un formulaire PDF.

Découvrez comment :

  1. activer Document AI dans un projet Google Cloud  ;

  2. créer un outil d'analyse des formulaires, capable d'identifier et d'extraire le texte, des paires clé/valeur, des tables et des entités génériques de différents types de documents ;

  3. utiliser l'outil de traitement pour annoter un exemple de document.


Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud , cliquez sur Visite guidée :

Visite guidée


  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Document AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Document AI API.

    Enable the API

  8. Créer un outil d'analyse des formulaires

    Créez un outil d'analyse des formulaires à l'aide de la console Google Cloud . Pour en savoir plus, consultez la section Créer et gérer des outils de traitement.

    1. Dans le menu de navigation de la console Google Cloud , cliquez sur Document AI, puis sélectionnez Galerie d'outils de traitement.

      Galerie d'outils de traitement

    2. Dans la Galerie d'outils de traitement, recherchez Analyseur de formulaires et sélectionnez Créer.

      Option de l'analyseur de formulaires dans l'UI

    3. Dans la fenêtre latérale, saisissez un nom d'outil de traitement (par exemple quickstart-form-processor).

    4. Sélectionnez la région la plus proche de vous.

    5. Cliquez sur le bouton Create (Créer).

    Vous êtes alors redirigé vers la page Détails de l'outil de traitement de votre nouvel analyseur de formulaires.

    Tester l'outil de traitement

    Après avoir créé votre outil de traitement, vous pouvez lui envoyer des requêtes d'annotation.

    1. Télécharger l'exemple de document

      Il s'agit d'un fichier PDF contenant un exemple de formulaire d'enregistrement médical manuscrit. Ce document est stocké dans un bucket Cloud Storage publiquement accessible.

    2. Cliquez sur le bouton Importer un document de test , puis sélectionnez le document que vous venez de télécharger.

    3. La page Analyse des formulaires s'affiche. Vous pouvez afficher les paires clé-valeur, les tables, les entités génériques et le texte extraits du document et détectés par reconnaissance optique des caractères.

      Exemple de paires clé/valeur dans l'interface utilisateur exemple de formulaire d'entités génériques dans l'interface utilisateur

    Effectuer un nettoyage

    Pour éviter des frais Google Cloud inutiles, utilisezGoogle Cloud console pour supprimer votre outil de traitement et votre projet si vous n'en avez plus besoin.

    Étapes suivantes