Panoramica dell'estrattore personalizzato
L'estrattore personalizzato estrae le entità dai documenti di un determinato tipo. Ad esempio, può estrarre gli elementi di un menu o il nome e i dati di contatto da un curriculum.
Panoramica
Lo scopo dell'estrattore personalizzato è consentire agli utenti di Document AI di creare soluzioni di estrazione di entità personalizzate per nuovi tipi di documenti per i quali non sono disponibili processori preaddestrati. L'estrattore personalizzato include una combinazione di modelli di deep learning attenti al layout (per l'AI generativa e i modelli personalizzati) e modelli basati su modelli.
Quale metodo di allenamento devo utilizzare?
L'estrattore personalizzato supporta un'ampia gamma di casi d'uso con tre diverse modalità.
Metodo di addestramento | Esempi di documenti | Variazione del layout del documento | Testo o paragrafi in formato libero | Numero di documenti di addestramento per una qualità pronta per la produzione, a seconda della variabilità | |
---|---|---|---|---|---|
Ottimizzazione e modello di base (AI generativa). | Contratto, termini di servizio, fattura, estratto conto bancario, polizza di carico, buste paga. | Dal più alto al più basso (opzione preferita). | Alto. | Medio: da 0 a più di 50 documenti. | |
Modello personalizzato. | Modello. | Moduli simili con variazioni di layout tra anni o fornitori (ad es. W9). | Da basso a medio. | Basso. | Alto: da 10 a più di 100 documenti. |
Modello. | Moduli fiscali con un layout fisso (ad esempio, i moduli 941 e 709). | Nessuno. | Basso. | Basso (3 documenti). |
Poiché i modelli di base in genere richiedono meno documenti di addestramento, sono consigliati come prima opzione per tutti i layout variabili.
Punteggio di confidenza
Il punteggio di affidabilità indica con quale intensità il modello associa ogni entità al valore previsto. Il valore è compreso tra zero e uno. Più è vicino a uno, maggiore è la confidenza del modello che il valore corrisponde all'entità. In questo modo, gli utenti possono impostare attivatori per la revisione manuale delle singole entità quando il valore è basso. Ad esempio, determinare se il testo in un'entità è "Ciao, mondo!" o "Ciao, mondo!"
I vantaggi di questo approccio consentono di rilevare singole entità con bassa affidabilità, impostare le soglie per le quali vengono utilizzate le previsioni, selezionare la soglia di confidenza ottimale e sviluppare nuove strategie per l'addestramento di modelli con punteggi di precisione e affidabilità più elevati.
Per ulteriori informazioni su metriche e concetti di valutazione, consulta Valutare il rendimento.