Estrazione basata su modello
Puoi addestrare un modello ad alte prestazioni con un minimo di tre documenti di addestramento e tre di test per i casi d'uso con layout fisso. Accelera lo sviluppo e riduci i tempi di produzione per i tipi di documenti basati su modelli come W9, 1040, ACORD, sondaggi e questionari.
Configurazione del set di dati
Per addestrare, valutare una versione del processore o addestrare un modello predefinito del processore è necessario un set di dati di documenti. I processori Document AI apprendono dagli esempi, proprio come gli esseri umani. Il set di dati migliora la stabilità del processore in termini di prestazioni.Set di dati di addestramento
Per migliorare il modello e la sua accuratezza, addestra un set di dati sui tuoi documenti. Il modello è costituito da documenti con dati di fatto. Per addestrare un nuovo modello sono necessari almeno tre documenti.Set di dati di test
Il set di dati di test viene utilizzato dal modello per generare un punteggio F1 (accuratezza). È costituito da documenti con dati di fatto. Per vedere con quale frequenza il modello è corretto, i dati empirici reali vengono utilizzati per confrontare le previsioni del modello (campi estratti dal modello) con le risposte corrette. Il set di dati di test deve contenere almeno tre documenti.Prima di iniziare
Se non l'hai già fatto, attiva:
Best practice per l'etichettatura in modalità modello
L'etichettatura corretta è uno dei passaggi più importanti per ottenere un'elevata precisione. La modalità Modelli ha una metodologia di etichettatura unica che si differenzia dalle altre modalità di addestramento:
- Disegna i riquadri delimitanti intorno all'intera area in cui prevedi che si trovino i dati (per etichetta) all'interno di un documento, anche se l'etichetta è vuota nel documento di addestramento che stai etichettando.
- Puoi etichettare i campi vuoti per l'addestramento basato su modello. Non etichettare i campi vuoti per l'addestramento basato su modello.
Creare e valutare un estrattore personalizzato con la modalità modello
Crea un estrattore personalizzato. Crea un processore e definisci i campi da estrarre seguendo le best practice, che sono importanti perché influiscono sulla qualità dell'estrazione.
Imposta la posizione del set di dati. Seleziona la cartella delle opzioni predefinite (gestita da Google). Questa operazione potrebbe essere eseguita automaticamente poco dopo la creazione del processore.
Vai alla scheda Crea e seleziona Importa documenti con l'etichettatura automatica attivata. In genere, l'aggiunta di più documenti rispetto al numero minimo di tre richiesti non migliora la qualità dell'addestramento basato su modelli. Anziché aggiungerne altri, concentrati sull'etichettatura di un piccolo insieme in modo molto preciso.
Estendere i riquadri di delimitazione. Queste caselle per la modalità di modello dovrebbero avere lo stesso aspetto degli esempi precedenti. Espandi le caselle delimitanti seguendo le best practice per ottenere il risultato ottimale.
Addestra il modello.
- Seleziona Addestra nuova versione.
- Assegna un nome alla versione del processore.
- Vai a Mostra opzioni avanzate e seleziona l'approccio del modello basato su modello.
Valutazione.
- Vai a Valuta e testa.
- Seleziona la versione appena addestrata, quindi Visualizza valutazione completa.
Ora vengono visualizzate metriche come F1, precisione e richiamo per l'intero documento e per ogni campo. 1. Decidi se il rendimento soddisfa i tuoi obiettivi di produzione e, in caso contrario, rivaluta i set di addestramento e test.
Imposta una nuova versione come predefinita.
- Vai a Gestisci versioni.
- Seleziona per visualizzare il menu delle impostazioni, quindi seleziona Imposta come predefinito.
Il modello è stato implementato e i documenti inviati a questo elaboratore utilizzano la tua versione personalizzata. Vuoi valutare le prestazioni del modello (maggiori dettagli su come farlo) per verificare se richiede ulteriore addestramento.
Riferimento alla valutazione
Il motore di valutazione può eseguire sia la corrispondenza esatta sia la corrispondenza approssimativa. Per una corrispondenza esatta, il valore estratto deve corrispondere esattamente al dato di fatto o viene conteggiato come mancante.
Le estrazioni con corrispondenza approssimativa che presentano lievi differenze, ad esempio differenze di maiuscole, vengono comunque conteggiate come corrispondenze. Questo valore può essere modificato nella schermata Valutazione.
Etichettatura automatica con il modello di base
Il foundation model è in grado di estrarre con precisione i campi per vari tipi di documenti, ma puoi anche fornire dati di addestramento aggiuntivi per migliorare l'accuratezza del modello per strutture di documenti specifiche.
Document AI utilizza i nomi delle etichette che definisci e le annotazioni precedenti per rendere più rapida e semplice l'etichettatura dei documenti su larga scala grazie all'etichettatura automatica.
- Dopo aver creato un elaboratore personalizzato, vai alla scheda Inizia.
Seleziona Crea nuovo campo.
Vai alla scheda Crea e seleziona Importa documenti.
Seleziona il percorso dei documenti e l'insieme in cui devono essere importati. Seleziona la casella di controllo di etichettatura automatica e seleziona il modello di base.
Nella scheda Crea, seleziona Gestisci set di dati. Dovresti vedere i documenti importati. Seleziona uno dei tuoi documenti.
Le previsioni del modello sono evidenziate in viola. Devi esaminare ogni etichetta prevista dal modello e assicurarti che sia corretta. Se mancano campi, devi aggiungerli.
Una volta esaminato il documento, seleziona Contrassegna come etichettato.
Il documento è ora pronto per essere utilizzato dal modello. Assicurati che il documento sia nel set di test o di addestramento.