Panoramica dell'estrattore personalizzato

L'estrattore personalizzato estrae le entità dai documenti di un determinato tipo. Ad esempio, può estrarre gli elementi di un menu o il nome e i dati di contatto da un curriculum.

Panoramica

Lo scopo dell'estrattore personalizzato è consentire agli utenti di Document AI di creare soluzioni di estrazione di entità personalizzate per nuovi tipi di documenti per i quali non sono disponibili processori preaddestrati. L'estrattore personalizzato include una combinazione di modelli di deep learning attenti al layout (per l'AI generativa e i modelli personalizzati) e modelli basati su modelli.

Quale metodo di allenamento devo utilizzare?

L'estrattore personalizzato supporta un'ampia gamma di casi d'uso con tre diverse modalità.

Metodo di addestramento Esempi di documenti Variazione del layout del documento Testo o paragrafi in formato libero Numero di documenti di addestramento per una qualità pronta per la produzione, a seconda della variabilità
Ottimizzazione e modello di base (AI generativa). Contratto, termini di servizio, fattura, estratto conto bancario, polizza di carico, buste paga. Dal più alto al più basso (opzione preferita). Alto. Medio: da 0 a più di 50 documenti.
Modello personalizzato. Modello. Moduli simili con variazioni di layout tra anni o fornitori (ad es. W9). Da basso a medio. Basso. Alto: da 10 a più di 100 documenti.
Modello. Moduli fiscali con un layout fisso (ad esempio, i moduli 941 e 709). Nessuno. Basso. Basso (3 documenti).

Poiché i modelli di base in genere richiedono meno documenti di addestramento, sono consigliati come prima opzione per tutti i layout variabili.

Punteggio di confidenza

Il punteggio di affidabilità indica con quale intensità il modello associa ogni entità al valore previsto. Il valore è compreso tra zero e uno. Più è vicino a uno, maggiore è la confidenza del modello che il valore corrisponde all'entità. In questo modo, gli utenti possono impostare attivatori per la revisione manuale delle singole entità quando il valore è basso. Ad esempio, determinare se il testo in un'entità è "Ciao, mondo!" o "Ciao, mondo!"

I vantaggi di questo approccio consentono di rilevare singole entità con bassa affidabilità, impostare le soglie per le quali vengono utilizzate le previsioni, selezionare la soglia di confidenza ottimale e sviluppare nuove strategie per l'addestramento di modelli con punteggi di precisione e affidabilità più elevati.

Per ulteriori informazioni su metriche e concetti di valutazione, consulta Valutare il rendimento.