Présentation de l'extracteur personnalisé

L'extracteur personnalisé extrait des entités à partir de documents d'un type particulier. Par exemple, il peut extraire les éléments d'un menu ou le nom et les coordonnées d'un candidat à partir d'un CV.

Présentation

L'objectif de l'extracteur personnalisé est de permettre aux utilisateurs de Document AI de créer des solutions d'extraction d'entités personnalisées pour de nouveaux types de documents pour lesquels aucun processeur pré-entraîné n'est disponible. L'extracteur personnalisé inclut une combinaison de modèles de deep learning tenant compte de la mise en page (pour l'IA générative et les modèles personnalisés) et de modèles basés sur des modèles.

Quelle méthode d'entraînement dois-je utiliser ?

L'extracteur personnalisé prend en charge un large éventail de cas d'utilisation avec trois modes différents.

Méthode d'entraînement Exemples de documents Variation de la mise en page des documents Texte ou paragraphes au format libre Nombre de documents d'entraînement pour une qualité de production, en fonction de la variabilité
Ajuster et modèle de fondation (IA générative). Contrat, conditions d'utilisation, facture, relevé bancaire, connaissement, bulletins de paie. Ordre décroissant (recommandé). Élevée. Moyenne : de 0 à 50 documents
Modèle personnalisé. Modèle. Formulaires similaires avec une mise en page différente selon les années ou les fournisseurs (par exemple, le formulaire W9). Faible à moyen Faible Élevé : entre 10 et plus de 100 documents.
Modèle. Formulaires fiscaux avec une mise en page fixe (formulaires 941 et 709, par exemple). Aucun Faible Faible (3 documents).

Étant donné que les modèles de fondation nécessitent généralement moins de documents d'entraînement, ils sont recommandés comme première option pour toutes les mises en page de variables.

Score de confiance

Le score de confiance indique à quel point votre modèle associe chaque entité à la valeur prédite. La valeur est comprise entre zéro et un. Plus elle est proche de 1, plus le modèle est confiant que la valeur correspond à l'entité. Cela permet aux utilisateurs de définir des déclencheurs pour l'examen manuel d'entités individuelles lorsque la valeur est faible. Par exemple, déterminer si le texte d'une entité est "Hello, world!" ou "HeIIo vvorld!"

Les avantages de cette approche permettent de repérer les entités individuelles avec un faible niveau de confiance, de définir des seuils pour les prédictions utilisées, de sélectionner le seuil de confiance optimal et de développer de nouvelles stratégies pour entraîner des modèles avec des scores de précision et de confiance plus élevés.

Pour en savoir plus sur les concepts et les métriques d'évaluation, consultez Évaluer les performances.