Panoramica dell'estrattore personalizzato

Custom Extractor estrae entità dai documenti di un particolare tipo. Ad esempio, può estrarre gli elementi di un menu o il nome e i dati di contatto da un curriculum.

Panoramica

L'obiettivo dell'estrattore personalizzato è consentire agli utenti di Document AI di creare soluzioni di estrazione di entità personalizzate per nuovi tipi di documenti per i quali non sono disponibili processori preaddestrati. L'estrattore personalizzato include una combinazione di modelli di deep learning sensibili al layout (per l'AI generativa e i modelli personalizzati) e modelli basati su modelli.

Quale metodo di addestramento devo utilizzare?

L'estrattore personalizzato supporta un'ampia gamma di casi d'uso con tre modalità diverse.

Metodo di addestramento Esempi di documenti Variante del layout del documento Testo o paragrafi in formato libero Numero di documenti di addestramento per una qualità pronta per la produzione, a seconda della variabilità
Modello di base e ottimizzazione (AI generativa). Contratto, termini di servizio, fattura, estratto conto bancario, polizza di carico, buste paga. Dal più alto al più basso (preferito). Alto. Medio: 0-50+ documenti.
Modello personalizzato. Modello. Moduli simili con variazioni di layout nel corso degli anni o tra i fornitori (ad esempio, il modulo W9). Da basso a medio. Basso. Alto: 10-100+ documenti.
Modello. Moduli fiscali con un layout fisso (ad esempio, i moduli 941 e 709). Nessuno. Basso. Basso (3 documenti).

Poiché i modelli di base in genere richiedono meno documenti di addestramento, sono consigliati come prima opzione per tutti i layout delle variabili.

Punteggio di confidenza

Il punteggio di affidabilità indica la forza con cui il modello associa ogni entità al valore previsto. Il valore è compreso tra zero e uno. Più si avvicina a uno, maggiore è la confidenza del modello che il valore corrisponda all'entità. Ciò consente agli utenti di impostare trigger per la revisione manuale delle singole entità quando il valore è basso. Ad esempio, determinare se il testo in un'entità è "Hello, world!" o "HeIIo vvorld!"

I vantaggi di questo approccio consentono di individuare singole entità con bassa confidenza, impostare soglie per le previsioni utilizzate, selezionare la soglia di confidenza ottimale e sviluppare nuove strategie per l'addestramento di modelli con punteggi di accuratezza e confidenza più elevati.

Per ulteriori informazioni sui concetti e sulle metriche di valutazione, vedi Valuta il rendimento.