Estrazione basata su elementi personalizzati

L'addestramento e l'estrazione di modelli personalizzati ti consentono di creare un modello progettato appositamente per i tuoi documenti senza l'utilizzo dell'AI generativa. È ideale se non vuoi utilizzare l'AI generativa e vuoi controllare tutti gli aspetti del modello addestrato.

Configurazione del set di dati

Per addestrare, eseguire l'ottimizzazione dell'addestramento o valutare una versione del processore è necessario un set di dati di documenti. I processori Document AI imparano dagli esempi, proprio come gli esseri umani. Il set di dati alimenta la stabilità del processore in termini di prestazioni.

Addestrare set di dati

Per migliorare il modello e la sua accuratezza, addestra un set di dati sui tuoi documenti. Il modello è composto da documenti con dati di fatto. Per addestrare un nuovo modello sono necessari almeno tre documenti.

Set di dati di test

Il set di dati di test è ciò che il modello utilizza per generare un punteggio F1 (accuratezza). È composto da documenti con dati di riferimento. Per vedere la frequenza con cui il modello è corretto, i dati empirici reali vengono utilizzati per confrontare le previsioni del modello (campi estratti dal modello) con le risposte corrette. Il set di dati di test deve contenere almeno tre documenti.

Prima di iniziare

Se non l'hai ancora fatto, abilita la fatturazione e l'API Document AI.

Crea e valuta un modello personalizzato

Inizia creando e poi valutando un processore personalizzato.

  1. Crea un processore e definisci i campi che vuoi estrarre, il che è importante perché influisce sulla qualità dell'estrazione.

  2. Imposta la posizione del set di dati: seleziona la cartella dell'opzione predefinita Gestita da Google. Questa operazione potrebbe essere eseguita automaticamente poco dopo la creazione del processore.

  3. Vai alla scheda Crea e seleziona Importa documenti con l'etichettatura automatica attivata (vedi Etichettatura automatica con il modello di base). Per addestrare un modello personalizzato, sono necessari almeno 10 documenti nel set di addestramento e 10 nel set di test.

  4. Addestra modello:

    1. Seleziona Addestra nuova versione e assegna un nome alla versione del processore.
    2. Vai a Mostra opzioni avanzate e seleziona l'opzione Basato su modello.

    custom-based-extraction-1

  5. Valutazione:

    • Vai a Valuta e verifica, seleziona la versione che hai appena addestrato, quindi seleziona Visualizza valutazione completa.

    custom-based-extraction-2

    • Ora visualizzi metriche come F1, precisione e richiamo per l'intero documento e per ogni campo.
    • Decidi se il rendimento soddisfa i tuoi obiettivi di produzione. In caso contrario, rivaluta i set di addestramento e test, in genere aggiungendo documenti al set di test di addestramento che non vengono analizzati correttamente.
  6. Imposta una nuova versione come predefinita.

    1. Vai a Gestisci versioni.
    2. Vai al menu e seleziona Imposta come predefinito.

    custom-based-extraction-3

Il modello è ora implementato e i documenti inviati a questo processore utilizzano ora la tua versione personalizzata. Vuoi valutare le prestazioni del modello per verificare se richiede ulteriore addestramento.

Riferimento alla valutazione

Il motore di valutazione può eseguire la corrispondenza esatta o la corrispondenza fuzzy. Per una corrispondenza esatta, il valore estratto deve corrispondere esattamente al dato di riferimento o viene conteggiato come mancata corrispondenza.

Le estrazioni con corrispondenza fuzzy che presentavano lievi differenze, ad esempio differenze di maiuscole e minuscole, vengono comunque conteggiate come corrispondenze. Puoi modificarlo nella schermata Valutazione.

custom-based-extraction-4

Etichettatura automatica con il modello di base

Il foundation model è in grado di estrarre con precisione i campi per vari tipi di documenti, ma puoi anche fornire dati di addestramento aggiuntivi per migliorare l'accuratezza del modello per strutture di documenti specifiche.

Document AI utilizza i nomi delle etichette che definisci e le annotazioni precedenti per etichettare i documenti su larga scala con l'etichettatura automatica.

  1. Dopo aver creato un processore personalizzato, vai alla scheda Inizia.
  2. Seleziona Crea nuovo campo.
  3. Fornisci un nome descrittivo e compila il campo della descrizione. La descrizione della proprietà consente di fornire contesto aggiuntivo, approfondimenti e conoscenze precedenti per ogni entità al fine di migliorare l'accuratezza e il rendimento dell'estrazione.

custom-based-extraction-5

  1. Vai alla scheda Crea, poi seleziona Importa documenti.

    custom-based-extraction-6

  2. Seleziona il percorso dei documenti e il set in cui devono essere importati. Seleziona la casella di etichettatura automatica e scegli il foundation model.

  3. Nella scheda Crea, seleziona Gestisci set di dati. Dovresti vedere i documenti importati. Seleziona uno dei tuoi documenti.

    custom-based-extraction-7

Ora le previsioni del modello sono evidenziate in viola.

  1. Esamina ogni etichetta prevista dal modello e assicurati che sia corretta. Se mancano campi, aggiungi anche questi.

custom-based-extraction-8

  1. Dopo aver esaminato il documento, seleziona Contrassegna come etichettato. Il documento è ora pronto per essere utilizzato dal modello. Assicurati che il documento si trovi nel set Test o Addestramento.