Panoramica dell'estrazione
Document AI offre più prodotti per estrarre informazioni dai documenti per diversi casi d'uso:
- Analizzatore sintattico di moduli
Estrattore personalizzato, che offre tre diversi tipi di definizione del modello:
- Modello di base
- In base a un modello personalizzato
- In base a un modello personalizzato
Analizzatore sintattico di moduli
Il parser di moduli estrae coppie chiave-valore (KVP), tabelle, indicatori di selezione (caselle di controllo) e campi generici per aumentare e automatizzare l'estrazione. Può estrarre fino a 11 entità generiche e caselle di controllo out of the box. Non specifichi i campi (schema) da estrarre con l'analizzatore sintattico dei moduli. Il modello rileva e restituisce le entità di interesse da ogni pagina dei documenti.
Estrattore personalizzato
L'estrattore personalizzato estrae le entità che definisci nello schema e offre tre opzioni di definizione del modello: basato su modello di base, basato su modello personalizzato e basato su modello personalizzato. Dati i risultati promettenti ottenuti con i modelli di base con pochi o nessun dato di addestramento, ti consigliamo di iniziare con il modello di base come prima opzione e di provare altre opzioni in base alle esigenze. I modelli di base eseguono previsioni da zero a pochi esempi, in base a un massimo di 5 documenti etichettati nel set di dati, e previsioni ottimizzate con più di 10 documenti etichettati nel set di dati.
Metodo di addestramento | Esempi di documenti | Variazione del layout del documento | Testo o paragrafi in formato libero | Numero di documenti di addestramento per una qualità pronta per la produzione, a seconda della variabilità | |
---|---|---|---|---|---|
Ottimizzazione e modello di base (AI generativa). | Contratto, termini di servizio, fattura, estratto conto bancario, polizza di carico, buste paga. | Dal più alto al più basso (opzione preferita). | Alto. | Medio: da 0 a più di 50 documenti. | |
Modello personalizzato. | Modello. | Moduli simili con variazioni di layout tra anni o fornitori (ad es. W9). | Da basso a medio. | Basso. | Alto: da 10 a più di 100 documenti. |
Modello. | Moduli fiscali con un layout fisso (ad esempio, i moduli 941 e 709). | Nessuno. | Basso. | Basso (3 documenti). |
Poiché i modelli di base in genere richiedono meno documenti di addestramento, sono consigliati come prima opzione per tutti i layout variabili.
Parser del layout
Lo strumento di analisi del layout trasforma i documenti in vari formati in rappresentazioni strutturate, rendendo accessibili contenuti come paragrafi, tabelle, elenchi ed elementi strutturali come intestazioni, intestazioni di pagina e piè di pagina e creando blocchi sensibili al contesto che facilitano il recupero delle informazioni in una serie di app di scoperta e di AI generativa.