Traiter des documents avec l'analyseur de formulaires
L'outil d'analyse des formulaires extrait des paires clé-valeur, des tableaux, des marques de sélection (comme les cases à cocher), des champs génériques et du texte pour améliorer et automatiser le traitement des documents.
Le composant Analyseur de formulaire peut être privilégié par rapport aux autres analyseurs lorsque le cas d'utilisation implique:
- Traitement des formulaires structurés: il excelle à extraire les KVP à partir de formulaires bien définis qui ressemblent à des formulaires conventionnels avec des espaces vides libellés à remplir, comme
name: __
. Le modèle pré-entraîné de l'analyseur de formulaires offre une grande précision pour les champs courants tels que les noms, les dates et les adresses. - Une extraction flexible des tableaux est nécessaire: l'analyseur de formulaires extrait des tableaux qui ressemblent à des tableaux à partir de tableaux simples (sans cellules s'étendant sur des lignes ou des colonnes). Aucune formation n'est requise (ni possible). Pour l'extraction de tables entraînées, l'extracteur personnalisé peut être utilisé avec un champ parent contenant des champs enfants de colonne (cellule).
- Besoin d'efficacité: évitez de créer et de gérer des analyseurs d'extraction, en particulier pour les tâches d'extraction variées et à fort volume.
Fonctionnalités d'extraction de données
Les fonctionnalités de l'analyseur de formulaires incluent les suivantes:
Paire clé-valeur : ensemble de deux éléments dans un document : un libellé ou une clé et les données correspondantes (une valeur). Vous pouvez utiliser directement des paires clé-valeur (si les clés sont cohérentes) ou créer une logique personnalisée pour résoudre des clés variées en informations structurées cohérentes.
Entités génériques:analysez 11 champs différents à partir de documents prêts à l'emploi. Exemples :
email
phone
url
date_time
address
person
organization
quantity
price
id
page_number
Texte et mise en page:utilisez notre dernier moteur de reconnaissance optique des caractères pour extraire le texte et les informations de mise en page. Cela inclut le texte intégré à des PDF numériques (version 2.1 uniquement) ou le texte d'images.
Tableaux:détectez et extrayez les tableaux à partir d'images et de fichiers PDF.
Cases à cocher:détecteur de marque de sélection de haute qualité, qui extrait les cases à cocher des images et de la sortie PDF au format KVP, à l'aide du texte le plus proche de la case à cocher, avec un
valueType
indiquant si elle est cochée ou non.
Langues et zones géographiques
- L'analyseur de formulaires 2.0 est compatible avec plus de 200 langues. En savoir plus
- Nous proposons cette fonctionnalité dans huit régions. En savoir plus
Versions de modèle
Les versions de processeur suivantes sont compatibles avec cette fonctionnalité. Pour en savoir plus, consultez la page Gérer les versions de l'outil de traitement.
Limites
Les compressions JPEG précédentes pour TIFF ne sont pas prises en charge. Type d'encapsulation JPEG défini par la spécification de la version 6.0 du format TIFF.
Le modèle de case à cocher n'est pas compatible avec l'analyse des boutons radio. Il est possible que certaines cases à cocher détectées ne disposent pas de touches correspondantes.
Le modèle n'analyse pas de manière fiable un KVP avec une valeur non renseignée, comme un formulaire vide.
L'analyse KVP des documents dans certaines langues peut être de qualité inférieure à celle des langues latines.
Traiter des documents avec l'analyseur de formulaires
Ce guide de démarrage rapide vous présente l'analyseur de formulaires dans Document AI. Dans ce guide de démarrage rapide, vous allez utiliser la console Google Cloud pour configurer votre projet et les autorisations Google Cloud, créer un analyseur de formulaires, puis envoyer une requête à Document AI pour traiter un formulaire PDF.
Découvrez comment :
Activer Document AI dans un projet Google Cloud .
créer un outil d'analyse des formulaires, capable d'identifier et d'extraire le texte, des paires clé/valeur, des tables et des entités génériques de différents types de documents ;
utiliser l'outil de traitement pour annoter un exemple de document.
Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud, cliquez sur Visite guidée :
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
Créer un outil d'analyse des formulaires
Utilisez la console Google Cloud pour créer un outil d'analyse des formulaires. Pour en savoir plus, consultez la section Créer et gérer des outils de traitement.
Dans le menu de navigation de la console Google Cloud, cliquez sur Document AI, puis sélectionnez Galerie d'outils de traitement.
Dans la Galerie d'outils de traitement,
recherchez Analyseur de formulaires et sélectionnez Créer.Dans la fenêtre latérale, saisissez un nom d'outil de traitement (par exemple
quickstart-form-processor
).Sélectionnez la région la plus proche de vous.
Cliquez sur le bouton Create (Créer).
Vous êtes alors redirigé vers la page Détails de l'outil de traitement de votre nouvel analyseur de formulaires.
Tester l'outil de traitement
Après avoir créé votre outil de traitement, vous pouvez lui envoyer des requêtes d'annotation.
Télécharger l'exemple de document
Il s'agit d'un fichier PDF contenant un exemple de formulaire d'enregistrement médical manuscrit. Ce document est stocké dans un bucket Cloud Storage publiquement accessible.
Cliquez sur le bouton
Importer un document de test , puis sélectionnez le document que vous venez de télécharger.La page Analyse des formulaires s'affiche. Vous pouvez afficher les paires clé-valeur, les tables, les entités génériques et le texte extraits du document et détectés par reconnaissance optique des caractères.
Effectuer un nettoyage
Pour éviter que des frais liés à Google Cloud ne vous soient facturés inutilement, supprimez votre outil de traitement et votre projet à l'aide de la console Google Cloud si vous n'en avez plus besoin.
Étape suivante
- Consultez la liste des processeurs.