Estrazione basata su elementi personalizzati

L'addestramento e l'estrazione di modelli personalizzati ti consentono di creare il tuo modello progettato specificamente per i tuoi documenti senza utilizzare l'AI generativa. È ideale se non vuoi utilizzare l'AI generativa e vuoi controllare tutti gli aspetti del modello addestrato.

Configurazione del set di dati

Per addestrare, valutare una versione del processore o addestrare un modello predefinito del processore è necessario un set di dati di documenti. I processori Document AI apprendono dagli esempi, proprio come gli esseri umani. Il set di dati migliora la stabilità del processore in termini di prestazioni.

Set di dati di addestramento

Per migliorare il modello e la sua accuratezza, addestra un set di dati sui tuoi documenti. Il modello è costituito da documenti con dati di fatto. Per addestrare un nuovo modello sono necessari almeno tre documenti.

Set di dati di test

Il set di dati di test viene utilizzato dal modello per generare un punteggio F1 (accuratezza). È costituito da documenti con dati di fatto. Per vedere con quale frequenza il modello è corretto, i dati empirici reali vengono utilizzati per confrontare le previsioni del modello (campi estratti dal modello) con le risposte corrette. Il set di dati di test deve contenere almeno tre documenti.

Prima di iniziare

Se non l'hai ancora fatto, abilita la fatturazione e l'API Document AI.

Creare e valutare un modello personalizzato

Per iniziare, crea e valuta un processore personalizzato.

  1. Crea un elaboratore e definisci i campi da estrarre, il che è importante perché influisce sulla qualità dell'estrazione.

  2. Imposta la posizione del set di dati: seleziona la cartella dell'opzione predefinita Gestita da Google. Questa operazione potrebbe essere eseguita automaticamente poco dopo la creazione del processore.

  3. Vai alla scheda Compila e seleziona Importa documenti con l'etichettatura automatica attivata (vedi Etichettatura automatica con il modello di base). Per addestrare un modello personalizzato sono necessari almeno 10 documenti nel set di addestramento e 10 nel set di test.

  4. Addestra il modello:

    1. Seleziona Addestra nuova versione e assegna un nome alla versione del processore.
    2. Vai a Mostra opzioni avanzate e seleziona l'opzione In base al modello.

    custom-based-extraction-1

  5. Valutazione:

    • Vai a Valuta e verifica, seleziona la versione appena addestrata e poi Visualizza la valutazione completa.

    custom-based-extraction-2

    • Ora vedrai metriche come F1, precisione e richiamo per l'intero documento e per ogni campo.
    • Decidi se il rendimento soddisfa i tuoi obiettivi di produzione. In caso contrario, rivaluta i set di addestramento e test, in genere aggiungendo al set di test di addestramento i documenti che non vengono analizzati correttamente.
  6. Imposta una nuova versione come predefinita.

    1. Vai a Gestisci versioni.
    2. Vai al menu e seleziona Imposta come predefinito.

    custom-based-extraction-3

Il modello è stato implementato e i documenti inviati a questo elaboratore ora utilizzano la tua versione personalizzata. Vuoi valutare le prestazioni del modello per verificare se richiede ulteriore addestramento.

Riferimento alla valutazione

Il motore di valutazione può eseguire sia la corrispondenza esatta sia la corrispondenza approssimativa. Per una corrispondenza esatta, il valore estratto deve corrispondere esattamente al dato di fatto o viene conteggiato come mancante.

Le estrazioni con corrispondenza approssimativa che presentano lievi differenze, ad esempio differenze di maiuscole, vengono comunque conteggiate come corrispondenze. Questo valore può essere modificato nella schermata Valutazione.

custom-based-extraction-4

Etichettatura automatica con il modello di base

Il foundation model è in grado di estrarre con precisione i campi per vari tipi di documenti, ma puoi anche fornire dati di addestramento aggiuntivi per migliorare l'accuratezza del modello per strutture di documenti specifiche.

Document AI utilizza i nomi delle etichette che definisci e le annotazioni precedenti per etichettare i documenti su larga scala con l'etichettatura automatica.

  1. Dopo aver creato un processore personalizzato, vai alla scheda Inizia.
  2. Seleziona Crea nuovo campo.
  3. Fornisci un nome descrittivo e compila il campo della descrizione. La descrizione della proprietà consente di fornire contesto aggiuntivo, approfondimenti e conoscenze pregresse per ogni entità al fine di migliorare l'accuratezza e il rendimento dell'estrazione.

custom-based-extraction-5

  1. Vai alla scheda Crea, quindi seleziona Importa documenti.

    custom-based-extraction-6

  2. Seleziona il percorso dei documenti e l'insieme in cui devono essere importati. Seleziona la casella di controllo per l'etichettatura automatica e seleziona il modello di base.

  3. Nella scheda Crea, seleziona Gestisci set di dati. Dovresti vedere i documenti importati. Seleziona uno dei tuoi documenti.

    custom-based-extraction-7

Ora le previsioni del modello sono evidenziate in viola.

  1. Esamina ogni etichetta prevista dal modello e assicurati che sia corretta. Se mancano campi, aggiungili.

custom-based-extraction-8

  1. Dopo aver esaminato il documento, seleziona Contrassegna come etichettato. Il documento è ora pronto per essere utilizzato dal modello. Assicurati che il documento sia nel set Test o Addestramento.