Présentation de l'extracteur personnalisé
L'extracteur personnalisé extrait des entités à partir de documents d'un type particulier. Par exemple, il peut extraire les éléments d'un menu ou le nom et les coordonnées d'un candidat à partir d'un CV.
Présentation
L'objectif de l'extracteur personnalisé est de permettre aux utilisateurs de Document AI de créer des solutions d'extraction d'entités personnalisées pour les nouveaux types de documents pour lesquels aucun processeur pré-entraîné n'est disponible. L'extracteur personnalisé inclut une combinaison de modèles de deep learning respectueux de la mise en page (pour l'IA générative et les modèles personnalisés) et de modèles basés sur des modèles.
Quelle méthode de formation dois-je utiliser ?
L'extracteur personnalisé est compatible avec de nombreux cas d'utilisation grâce à trois modes différents.
Méthode d'entraînement | Exemples de documents | Variabilité de la mise en page des documents | Texte ou paragraphes au format libre | Nombre de documents d'entraînement pour une qualité prête à la production, en fonction de la variabilité | |
---|---|---|---|---|---|
Ajustement et modèle de base (IA générative) | Contrat, conditions d'utilisation, facture, relevé bancaire, connaissement, bulletin de paie | De haut en bas (recommandé). | Élevé. | Moyenne: entre 0 et 50 documents | |
Modèle personnalisé. | Modèle. | Formulaires similaires avec une mise en page différente d'une année à l'autre ou d'un fournisseur à l'autre (par exemple, W9) | Faible à moyen. | faible. | Élevé: 10 à 100 documents ou plus. |
Modèle. | Formulaires fiscaux avec une mise en page fixe (par exemple, les formulaires 941 et 709). | Aucun | faible. | Faible (3 documents) |
Étant donné que les modèles de base nécessitent généralement moins de documents d'entraînement, ils sont recommandés comme première option pour toutes les mises en page variables.
Score de confiance
Le score de confiance indique à quel point votre modèle associe chaque entité à la valeur prédite. La valeur est comprise entre zéro et un. Plus elle est proche de 1, plus le modèle est certain que la valeur correspond à l'entité. Cela permet aux utilisateurs de définir des déclencheurs pour l'examen manuel d'entités individuelles lorsque la valeur est faible. Par exemple, déterminer si le texte d'une entité est "Hello, world!" ou "HeIIo vvorld!"
Les avantages de cette approche permettent de repérer des entités individuelles avec un faible niveau de confiance, de définir des seuils pour lesquels les prédictions sont utilisées, de sélectionner le seuil de confiance optimal et de développer de nouvelles stratégies d'entraînement des modèles avec des scores de précision et de confiance plus élevés.
Pour en savoir plus sur les concepts et les métriques d'évaluation, consultez Évaluer les performances.