Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
L'extracteur personnalisé extrait des entités à partir de documents d'un type particulier. Par exemple, il peut extraire les éléments d'un menu ou le nom et les coordonnées d'un candidat à partir d'un CV.
Présentation
L'objectif de l'extracteur personnalisé est de permettre aux utilisateurs de Document AI de créer des solutions d'extraction d'entités personnalisées pour de nouveaux types de documents pour lesquels aucun processeur pré-entraîné n'est disponible. L'extracteur personnalisé inclut une combinaison de modèles de deep learning tenant compte de la mise en page (pour l'IA générative et les modèles personnalisés) et de modèles basés sur des modèles.
Quelle méthode d'entraînement dois-je utiliser ?
L'extracteur personnalisé prend en charge un large éventail de cas d'utilisation avec trois modes différents.
Méthode d'entraînement
Exemples de documents
Variation de la mise en page des documents
Texte ou paragraphes au format libre
Nombre de documents d'entraînement pour une qualité de production, en fonction de la variabilité
Ajuster et modèle de fondation (IA générative).
Contrat, conditions d'utilisation, facture, relevé bancaire, connaissement, bulletins de paie.
Ordre décroissant (recommandé).
Élevée.
Moyenne : de 0 à 50 documents
Modèle personnalisé.
Modèle.
Formulaires similaires avec une mise en page différente selon les années ou les fournisseurs (par exemple, le formulaire W9).
Faible à moyen
Faible
Élevé : entre 10 et plus de 100 documents.
Modèle.
Formulaires fiscaux avec une mise en page fixe (formulaires 941 et 709, par exemple).
Aucun
Faible
Faible (3 documents).
Étant donné que les modèles de fondation nécessitent généralement moins de documents d'entraînement, ils sont recommandés comme première option pour toutes les mises en page de variables.
Score de confiance
Le score de confiance indique à quel point votre modèle associe chaque entité à la valeur prédite. La valeur est comprise entre zéro et un. Plus elle est proche de 1, plus le modèle est confiant que la valeur correspond à l'entité.
Cela permet aux utilisateurs de définir des déclencheurs pour l'examen manuel d'entités individuelles lorsque la valeur est faible. Par exemple, déterminer si le texte d'une entité est "Hello, world!" ou "HeIIo vvorld!"
Les avantages de cette approche permettent de repérer les entités individuelles avec un faible niveau de confiance, de définir des seuils pour les prédictions utilisées, de sélectionner le seuil de confiance optimal et de développer de nouvelles stratégies pour entraîner des modèles avec des scores de précision et de confiance plus élevés.
Pour en savoir plus sur les concepts et les métriques d'évaluation, consultez Évaluer les performances.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[[["\u003cp\u003eCustom extractors are designed to identify and extract specific entities from various document types, including menus and resumes, for which pre-trained processors may not exist.\u003c/p\u003e\n"],["\u003cp\u003eThe custom extractor employs a combination of layout-aware deep learning models and template-based models to accommodate diverse document structures.\u003c/p\u003e\n"],["\u003cp\u003eThree training methods are available for the custom extractor: fine-tuning with foundation models, custom models, and template-based models, each suited for different levels of document layout variability.\u003c/p\u003e\n"],["\u003cp\u003eFoundation models are the preferred training option for documents with variable layouts, as they typically require fewer training documents compared to other methods.\u003c/p\u003e\n"],["\u003cp\u003eThe confidence score, ranging from zero to one, indicates the model's certainty in associating a value with a predicted entity, enabling users to set review thresholds and improve model accuracy.\u003c/p\u003e\n"]]],[],null,["# Custom extractor overview\n=========================\n\nCustom extractor extracts entities from documents of a particular type. For\nexample, it can extract the items in a menu or the name and contact information\nfrom a resume.\n\nOverview\n--------\n\nThe goal of the custom extractor is to enable Document AI users to build\ncustom entity extraction solutions for new document\ntypes for which no pre-trained processors are available. Custom extractor includes\na combination of layout-aware deep learning models (for generative AI and custom\nmodels) and template-based models.\n\nWhich training method should I use?\n-----------------------------------\n\nCustom extractor supports a wide range of use cases with three different modes.\n\nBecause foundation models typically require fewer training documents, they're\nrecommended as the first option for all variable layouts.\n\nConfidence score\n----------------\n\nThe confidence score communicates how strongly your model associates each entity\nwith the predicted value. The value is between zero and one, the closer it is to\none, the higher the model's confidence that the value corresponds to the entity.\nThis allows users to set triggers for manual review of individual entities when\nthe value is low. For example, determining whether the text in an entity is\n\"Hello, world!\" or \"HeIIo vvorld!\"\n\nThe benefits of this approach allow for spotting individual entities with low\nconfidence, setting thresholds for which predictions are used, selecting the\noptimal [confidence threshold](/document-ai/docs/evaluate#confidence_threshold), and development\nof new strategies for training models with higher accuracy and confidence scores.\n\nFor more information on evaluation concepts and metrics, see [Evaluate\nPerformance](/document-ai/docs/evaluate#all-labels)"]]