Présentation de l'extraction
Document AI propose plusieurs produits pour extraire des informations à partir de documents pour différents cas d'utilisation:
- Analyseur de formulaires
L'extracteur personnalisé, qui propose trois types de modélisation différents:
- Modèle de fondation
- Basé sur un modèle personnalisé
- Basé sur un modèle personnalisé
Analyseur de formulaires
L'outil d'analyse des formulaires extrait des paires clé-valeur, des tableaux, des marques de sélection (cases à cocher) et des champs génériques pour améliorer et automatiser l'extraction. Il peut extraire jusqu'à 11 entités génériques et cases à cocher prêtes à l'emploi. Vous ne spécifiez pas les champs (schéma) que vous souhaitez extraire avec l'analyseur de formulaires. Le modèle détecte et renvoie les entités d'intérêt de chaque page de documents.
Extracteur personnalisé
L'extracteur personnalisé extrait les entités que vous définissez dans le schéma et propose trois options de modélisation : modèle de base, modèle personnalisé et modèle basé sur un modèle personnalisé. Compte tenu des résultats prometteurs des modèles de base avec peu ou pas de données d'entraînement, nous vous recommandons de commencer par le modèle de base comme première option et d'essayer d'autres options si nécessaire. Les modèles de base effectuent des prédictions à partir de 0 à quelques exemples, sur la base de cinq documents libellés maximum dans l'ensemble de données, et des prédictions affinées avec plus de 10 documents libellés dans l'ensemble de données.
Méthode d'entraînement | Exemples de documents | Variabilité de la mise en page des documents | Texte ou paragraphes au format libre | Nombre de documents d'entraînement pour une qualité prête à la production, en fonction de la variabilité | |
---|---|---|---|---|---|
Ajustement et modèle de base (IA générative) | Contrat, conditions d'utilisation, facture, relevé bancaire, connaissement, bulletin de paie | De haut en bas (recommandé). | Élevé. | Moyenne: entre 0 et 50 documents | |
Modèle personnalisé. | Modèle. | Formulaires similaires avec une mise en page différente d'une année à l'autre ou d'un fournisseur à l'autre (par exemple, W9) | Faible à moyen. | faible. | Élevé: 10 à 100 documents ou plus. |
Modèle. | Formulaires fiscaux avec une mise en page fixe (par exemple, les formulaires 941 et 709). | Aucun | faible. | Faible (3 documents) |
Étant donné que les modèles de base nécessitent généralement moins de documents d'entraînement, ils sont recommandés comme première option pour toutes les mises en page variables.
Analyseur de mise en page
L'analyseur de mise en page transforme les documents de différents formats en représentations structurées, rendant accessible le contenu tel que les paragraphes, les tableaux, les listes et les éléments structurels tels que les titres, les en-têtes de page et les pieds de page, et crée des segments contextuels qui facilitent la récupération d'informations dans un éventail d'applications d'IA générative et de découverte.