Questa pagina è stata tradotta dall'API Cloud Translation.

Panoramica dell'estrazione

Document AI offre più prodotti per estrarre informazioni dai documenti per diversi casi d'uso:

Analizzatore sintattico di moduli
Estrattore personalizzato, che offre tre diversi tipi di modellazione:
- Modello di base
- Basato su modello personalizzato
- Basato su un modello personalizzato
Parser del layout

Analizzatore sintattico di moduli

L'analizzatore sintattico di moduli estrae coppie chiave-valore, tabelle, segni di selezione (caselle di controllo) e campi generici per aumentare e automatizzare l'estrazione. Può estrarre fino a 11 entità generiche e caselle di controllo predefinite. Non specificare i campi (schema) che vuoi estrarre con l'analizzatore sintattico di moduli. Il modello rileva e restituisce le entità di interesse da ogni pagina dei documenti.

Estrattore personalizzato

L'estrattore personalizzato estrae le entità che definisci nello schema e offre tre opzioni di modellazione: modello di base, modello personalizzato e modello personalizzato basato su modello. Dato che i modelli di base hanno dato risultati promettenti con pochi o nessun dato di addestramento, ti consigliamo di iniziare con il modello di base come prima opzione e provare altre opzioni in base alle necessità. I modelli di base eseguono la previsione zero-shot o few-shot in base a un massimo di 5 documenti etichettati nel set di dati e la previsione ottimizzata con più di 10 documenti etichettati nel set di dati.

Metodo di addestramento		Esempi di documenti	Variante del layout del documento	Testo o paragrafi in formato libero	Numero di documenti di addestramento per una qualità pronta per la produzione, a seconda della variabilità
Modello di base e ottimizzazione (AI generativa).		Contratto, termini di servizio, fattura, estratto conto bancario, polizza di carico, buste paga.	Dal più alto al più basso (preferito).	Alto.	Medio: 0-50+ documenti.
Modello personalizzato.	Modello.	Moduli simili con variazioni di layout nel corso degli anni o tra i fornitori (ad esempio, il modulo W9).	Da basso a medio.	Basso.	Alto: 10-100+ documenti.
Modello personalizzato.	Modello.	Moduli fiscali con un layout fisso (ad esempio, i moduli 941 e 709).	Nessuno.	Basso.	Basso (3 documenti).

Poiché i modelli di base in genere richiedono meno documenti di addestramento, sono consigliati come prima opzione per tutti i layout delle variabili.

Parser del layout

Layout Parser trasforma i documenti in vari formati in rappresentazioni strutturate, rendendo accessibili contenuti come paragrafi, tabelle, elenchi ed elementi strutturali come intestazioni, intestazioni di pagina e piè di pagina e creando blocchi sensibili al contesto che facilitano il recupero di informazioni in una serie di app di AI generativa e di scoperta.

Avanti

Analizzatore sintattico di moduli