L'entraînement et l'extraction de modèles personnalisés vous permettent de créer votre propre modèle conçu spécifiquement pour vos documents sans utiliser l'IA générative. Il est idéal si vous ne souhaitez pas utiliser l'IA générative et que vous voulez contrôler tous les aspects du modèle entraîné.
Configuration d'ensemble de données
Un ensemble de données de documents est requis pour entraîner, surentraîner ou évaluer une version du processeur. Les processeurs Document AI apprennent à partir d'exemples, tout comme les humains. L'ensemble de données alimente la stabilité du processeur en termes de performances.Ensemble de données d'entraînement
Pour améliorer le modèle et sa précision, entraînez un ensemble de données sur vos documents. Le modèle est constitué de documents avec vérité terrain. Vous devez disposer d'au moins trois documents pour entraîner un nouveau modèle.Ensemble de données de test
L'ensemble de données de test est ce que le modèle utilise pour générer un score F1 (précision). Il est composé de documents avec une vérité terrain. Pour savoir à quelle fréquence le modèle a raison, la vérité terrain est utilisée pour comparer les prédictions du modèle (champs extraits du modèle) aux bonnes réponses. L'ensemble de données de test doit comporter au moins trois documents.Avant de commencer
Si vous ne l'avez pas déjà fait, activez la facturation et l'API Document AI.
Créer et évaluer un modèle personnalisé
Commencez par créer un processeur personnalisé, puis évaluez-le.
Créez un processeur et définissez les champs que vous souhaitez extraire. Cette étape est importante, car elle a un impact sur la qualité de l'extraction.
Définissez l'emplacement de l'ensemble de données : sélectionnez le dossier d'option par défaut Géré par Google. Cela peut se faire automatiquement peu de temps après la création du processeur.
Accédez à l'onglet Compiler, puis sélectionnez Importer des documents avec l'étiquetage automatique activé (voir Étiquetage automatique avec le modèle de fondation). Pour entraîner un modèle personnalisé, vous devez disposer d'au moins 10 documents dans l'ensemble d'entraînement et 10 dans l'ensemble de test.
Entraîner le modèle :
- Sélectionnez Entraîner une nouvelle version et nommez la version du processeur.
- Accédez à Afficher les options avancées et sélectionnez l'option Basé sur le modèle.
Évaluation :
- Accédez à Évaluer et tester, sélectionnez la version que vous venez d'entraîner, puis cliquez sur Afficher l'évaluation complète.
- Vous voyez maintenant des métriques telles que f1, la précision et le rappel pour l'ensemble du document et pour chaque champ.
- Déterminez si les performances répondent à vos objectifs de production. Si ce n'est pas le cas, réévaluez les ensembles d'entraînement et de test, en ajoutant généralement à l'ensemble de test d'entraînement les documents qui ne sont pas bien analysés.
Définissez une nouvelle version par défaut.
- Accédez à Gérer les versions.
- Accédez au menu , puis sélectionnez Définir comme valeur par défaut.
Votre modèle est désormais déployé et les documents envoyés à ce processeur utilisent désormais votre version personnalisée. Vous souhaitez évaluer les performances du modèle pour vérifier s'il nécessite un entraînement supplémentaire.
Référence d'évaluation
Le moteur d'évaluation peut effectuer une correspondance exacte ou approximative. Pour une correspondance exacte, la valeur extraite doit correspondre exactement à la vérité terrain. Dans le cas contraire, elle est considérée comme une erreur.
Les extractions par correspondance approximative qui présentent de légères différences, comme des différences de casse, sont toujours considérées comme des correspondances. Vous pouvez le modifier sur l'écran Évaluation.
Étiquetage automatique avec le modèle de fondation
Le modèle de fondation peut extraire avec précision des champs à partir de types de documents divers, mais vous pouvez également fournir des données d'entraînement supplémentaires afin d'améliorer sa précision pour des structures de documents spécifiques.
Document AI utilise les noms d'étiquettes que vous avez définis et les annotations précédentes pour étiqueter les documents à grande échelle grâce à l'étiquetage automatique.
- Une fois que vous avez créé un processeur personnalisé, accédez à l'onglet Premiers pas.
- Sélectionnez Créer un champ.
- Indiquez un nom descriptif et remplissez le champ de description. La description de la propriété vous permet de fournir des informations contextuelles, des insights et des connaissances préalables supplémentaires pour chaque entité afin d'améliorer la précision et les performances de l'extraction.
Accédez à l'onglet Compiler, puis sélectionnez Importer des documents.
Sélectionnez le chemin d'accès aux documents et l'ensemble dans lequel ils doivent être importés. Cochez la case "Étiquetage automatique", puis sélectionnez le modèle de fondation.
Dans l'onglet Compiler, sélectionnez Gérer l'ensemble de données. Vos documents importés devraient s'afficher. Sélectionnez l'un de vos documents.
Les prédictions du modèle sont désormais mises en évidence en violet.
- Examinez chaque libellé prédit par le modèle et assurez-vous qu'il est correct. S'il manque des champs, ajoutez-les également.
- Une fois le document examiné, sélectionnez Marquer comme étiqueté. Le document est maintenant prêt à être utilisé par le modèle. Assurez-vous que le document se trouve dans l'ensemble de test ou d'entraînement.