Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Custom Extractor estrae entità dai documenti di un particolare tipo. Ad esempio, può estrarre gli elementi di un menu o il nome e i dati di contatto da un curriculum.
Panoramica
L'obiettivo dell'estrattore personalizzato è consentire agli utenti di Document AI di creare
soluzioni di estrazione di entità personalizzate per nuovi tipi di documenti
per i quali non sono disponibili processori preaddestrati. L'estrattore personalizzato include
una combinazione di modelli di deep learning sensibili al layout (per l'AI generativa e i modelli personalizzati) e modelli basati su modelli.
Quale metodo di addestramento devo utilizzare?
L'estrattore personalizzato supporta un'ampia gamma di casi d'uso con tre modalità diverse.
Metodo di addestramento
Esempi di documenti
Variante del layout del documento
Testo o paragrafi in formato libero
Numero di documenti di addestramento per una qualità pronta per la produzione, a seconda della variabilità
Modello di base e ottimizzazione (AI generativa).
Contratto, termini di servizio, fattura, estratto conto bancario, polizza di carico, buste paga.
Dal più alto al più basso (preferito).
Alto.
Medio: 0-50+ documenti.
Modello personalizzato.
Modello.
Moduli simili con variazioni di layout nel corso degli anni o tra i fornitori (ad esempio, il modulo W9).
Da basso a medio.
Basso.
Alto: 10-100+ documenti.
Modello.
Moduli fiscali con un layout fisso (ad esempio, i moduli 941 e 709).
Nessuno.
Basso.
Basso (3 documenti).
Poiché i modelli di base in genere richiedono meno documenti di addestramento, sono
consigliati come prima opzione per tutti i layout delle variabili.
Punteggio di confidenza
Il punteggio di affidabilità indica la forza con cui il modello associa ogni entità
al valore previsto. Il valore è compreso tra zero e uno. Più si avvicina a uno, maggiore è la confidenza del modello che il valore corrisponda all'entità.
Ciò consente agli utenti di impostare trigger per la revisione manuale delle singole entità quando
il valore è basso. Ad esempio, determinare se il testo in un'entità è
"Hello, world!" o "HeIIo vvorld!"
I vantaggi di questo approccio consentono di individuare singole entità con bassa
confidenza, impostare soglie per le previsioni utilizzate, selezionare la
soglia di confidenza ottimale e sviluppare
nuove strategie per l'addestramento di modelli con punteggi di accuratezza e confidenza più elevati.
Per ulteriori informazioni sui concetti e sulle metriche di valutazione, vedi Valuta il rendimento.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-04 UTC."],[[["\u003cp\u003eCustom extractors are designed to identify and extract specific entities from various document types, including menus and resumes, for which pre-trained processors may not exist.\u003c/p\u003e\n"],["\u003cp\u003eThe custom extractor employs a combination of layout-aware deep learning models and template-based models to accommodate diverse document structures.\u003c/p\u003e\n"],["\u003cp\u003eThree training methods are available for the custom extractor: fine-tuning with foundation models, custom models, and template-based models, each suited for different levels of document layout variability.\u003c/p\u003e\n"],["\u003cp\u003eFoundation models are the preferred training option for documents with variable layouts, as they typically require fewer training documents compared to other methods.\u003c/p\u003e\n"],["\u003cp\u003eThe confidence score, ranging from zero to one, indicates the model's certainty in associating a value with a predicted entity, enabling users to set review thresholds and improve model accuracy.\u003c/p\u003e\n"]]],[],null,["# Custom extractor overview\n=========================\n\nCustom extractor extracts entities from documents of a particular type. For\nexample, it can extract the items in a menu or the name and contact information\nfrom a resume.\n\nOverview\n--------\n\nThe goal of the custom extractor is to enable Document AI users to build\ncustom entity extraction solutions for new document\ntypes for which no pre-trained processors are available. Custom extractor includes\na combination of layout-aware deep learning models (for generative AI and custom\nmodels) and template-based models.\n\nWhich training method should I use?\n-----------------------------------\n\nCustom extractor supports a wide range of use cases with three different modes.\n\nBecause foundation models typically require fewer training documents, they're\nrecommended as the first option for all variable layouts.\n\nConfidence score\n----------------\n\nThe confidence score communicates how strongly your model associates each entity\nwith the predicted value. The value is between zero and one, the closer it is to\none, the higher the model's confidence that the value corresponds to the entity.\nThis allows users to set triggers for manual review of individual entities when\nthe value is low. For example, determining whether the text in an entity is\n\"Hello, world!\" or \"HeIIo vvorld!\"\n\nThe benefits of this approach allow for spotting individual entities with low\nconfidence, setting thresholds for which predictions are used, selecting the\noptimal [confidence threshold](/document-ai/docs/evaluate#confidence_threshold), and development\nof new strategies for training models with higher accuracy and confidence scores.\n\nFor more information on evaluation concepts and metrics, see [Evaluate\nPerformance](/document-ai/docs/evaluate#all-labels)"]]