Estrazione basata su modello

Puoi addestrare un modello ad alto rendimento con un minimo di tre documenti di addestramento e tre di test per i casi d'uso con layout fisso. Accelera lo sviluppo e riduci i tempi di produzione per i tipi di documenti basati su modelli come W9, 1040, ACORD, sondaggi e questionari.

Configurazione del set di dati

Per addestrare, eseguire l'ottimizzazione dell'addestramento o valutare una versione del processore è necessario un set di dati di documenti. I processori Document AI imparano dagli esempi, proprio come gli esseri umani. Il set di dati alimenta la stabilità del processore in termini di prestazioni.

Addestrare set di dati

Per migliorare il modello e la sua accuratezza, addestra un set di dati sui tuoi documenti. Il modello è composto da documenti con dati di fatto. Per addestrare un nuovo modello sono necessari almeno tre documenti.

Set di dati di test

Il set di dati di test è ciò che il modello utilizza per generare un punteggio F1 (accuratezza). È composto da documenti con dati di riferimento. Per vedere la frequenza con cui il modello è corretto, i dati empirici reali vengono utilizzati per confrontare le previsioni del modello (campi estratti dal modello) con le risposte corrette. Il set di dati di test deve contenere almeno tre documenti.

Prima di iniziare

Se non l'hai ancora fatto, attiva:

Best practice per l'etichettatura in modalità modello

L'etichettatura corretta è uno dei passaggi più importanti per ottenere un'elevata precisione. La modalità Modello ha una metodologia di etichettatura unica che differisce dalle altre modalità di addestramento:

  • Disegna i riquadri di selezione intorno all'intera area in cui prevedi che si trovino i dati (per etichetta) all'interno di un documento, anche se l'etichetta è vuota nel documento di addestramento che stai etichettando.
  • Puoi etichettare i campi vuoti per l'addestramento basato su template. Non etichettare i campi vuoti per l'addestramento basato su modello.

Creare e valutare un estrattore personalizzato con la modalità modello

  1. Crea un estrattore personalizzato. Crea un processore e definisci i campi che vuoi estrarre seguendo le best practice, il che è importante perché influisce sulla qualità dell'estrazione.

  2. Imposta la località del set di dati. Seleziona la cartella delle opzioni predefinite (gestite da Google). Questa operazione potrebbe essere eseguita automaticamente poco dopo la creazione del processore.

  3. Vai alla scheda Crea e seleziona Importa documenti con l'etichettatura automatica attivata. L'aggiunta di più documenti rispetto al minimo di tre necessari in genere non migliora la qualità dell'addestramento basato su modelli. Anziché aggiungerne altre, concentrati sull'etichettatura di un piccolo insieme in modo molto preciso.

  4. Estendi i riquadri di delimitazione. Queste caselle per la modalità modello dovrebbero avere l'aspetto degli esempi precedenti. Estendi i riquadri di selezione seguendo le best practice per ottenere il risultato ottimale.

  5. Addestra il modello.

    1. Seleziona Addestra nuova versione.
    2. Assegna un nome alla versione del processore.
    3. Vai a Mostra opzioni avanzate e seleziona l'approccio basato su modelli.

    template-based-extraction-3

  6. Valutazione.

    1. Vai a Valutazione e test.
    2. Seleziona la versione appena addestrata, quindi Visualizza valutazione completa.

    template-based-extraction-4

    Ora visualizzi metriche come F1, precisione e richiamo per l'intero documento e per ogni campo. 1. Decidi se il rendimento soddisfa i tuoi obiettivi di produzione e, in caso contrario, rivaluta i set di addestramento e test.

  7. Imposta una nuova versione come predefinita.

    1. Vai a Gestisci versioni.
    2. Seleziona per visualizzare il menu delle impostazioni, quindi seleziona Imposta come predefinito.

    template-based-extraction-5

    Il modello è ora implementato e i documenti inviati a questo processore utilizzano la tua versione personalizzata. Vuoi valutare il rendimento del modello (maggiori dettagli su come farlo) per verificare se richiede ulteriore addestramento.

Riferimento alla valutazione

Il motore di valutazione può eseguire la corrispondenza esatta o la corrispondenza fuzzy. Per una corrispondenza esatta, il valore estratto deve corrispondere esattamente al dato di riferimento o viene conteggiato come mancata corrispondenza.

Le estrazioni con corrispondenza fuzzy che presentavano lievi differenze, ad esempio differenze di maiuscole e minuscole, vengono comunque conteggiate come corrispondenze. Puoi modificarlo nella schermata Valutazione.

template-based-extraction-6

Etichettatura automatica con il modello di base

Il foundation model è in grado di estrarre con precisione i campi per vari tipi di documenti, ma puoi anche fornire dati di addestramento aggiuntivi per migliorare l'accuratezza del modello per strutture di documenti specifiche.

Document AI utilizza i nomi delle etichette che definisci e le annotazioni precedenti per rendere più rapida e semplice l'etichettatura dei documenti su larga scala grazie all'etichettatura automatica.

  1. Dopo aver creato un processore personalizzato, vai alla scheda Inizia.
  2. Seleziona Crea nuovo campo.

    template-based-extraction-7

  3. Vai alla scheda Crea e seleziona Importa documenti.

    template-based-extraction-8

  4. Seleziona il percorso dei documenti e il set in cui devono essere importati. Seleziona la casella di controllo dell'etichettatura automatica e seleziona il modello di base.

  5. Nella scheda Crea, seleziona Gestisci set di dati. Dovresti vedere i documenti importati. Seleziona uno dei tuoi documenti.

    template-based-extraction-9

  6. Le previsioni del modello sono evidenziate in viola. Devi esaminare ogni etichetta prevista dal modello e assicurarti che sia corretta. Se mancano campi, devi aggiungerli.

    template-based-extraction-10

  7. Una volta esaminato il documento, seleziona Contrassegna come etichettato.

  8. Il documento è ora pronto per essere utilizzato dal modello. Assicurati che il documento si trovi nel set di test o di addestramento.