Etichettatura dei documenti

Per addestrare, eseguire l'uptraining o valutare una versione del processore è necessario un set di dati etichettato dei documenti.

Questa pagina descrive come applicare le etichette dello schema del processore ai documenti importati nel set di dati.

Questa pagina presuppone che tu abbia già creato un processore che supporti l'addestramento, l'uptraining o la valutazione. Se il tuo processore è supportato, ora vedrai la scheda Addestra nella console Google Cloud. Inoltre, presuppone che tu abbia creato un set di dati, importato documenti e definito uno schema del processore.

Campi dei nomi per l'estrazione con AI generativa

Il modo in cui i campi vengono denominati influisce sulla precisione con cui vengono estratti utilizzando l'AI generativa. Consigliamo le seguenti best practice per la denominazione dei campi:

  • Assegna al campo lo stesso nome utilizzato per descriverlo nel documento: ad esempio, se un documento contiene un campo descritto come Employer Address, assegna al campo il nome employer_address. Non utilizzare abbreviazioni come emplr_addr.

  • Al momento gli spazi non sono supportati nei nomi dei campi: al posto degli spazi, usa _. Ad esempio, First Name verrebbe chiamato first_name.

  • Esegui l'iterazione sui nomi per migliorare l'accuratezza: Document AI ha un limite che non consente di modificare i nomi dei campi. Per testare nomi diversi, utilizza lo strumento di rinominazione del nome dell'entità per aggiornare il nome dell'entità precedente con uno più recente nel set di dati, importa il set di dati, attiva le nuove entità nell'elaboratore e disattiva o elimina i campi esistenti.

Opzioni di etichettatura

Di seguito sono riportate le opzioni per etichettare i documenti:

Etichettatura manuale nella console Google Cloud

Nella scheda Addestramento, seleziona un documento per aprire lo strumento di etichettatura.

Nell'elenco delle etichette dello schema sul lato sinistro dello strumento di etichettatura, seleziona il simbolo "Aggiungi" per selezionare lo strumento Riquadro delimitante per evidenziare le entità nel documento e assegnarle a un'etichetta.

Nello screenshot seguente, ai campi EMPL_SSN EMPLR_ID_NUMBER, EMPLR_NAME_ADDRESS, FEDERAL_INCOME_TAX_WH, SS_TAX_WH, SS_WAGES e WAGES_TIPS_OTHER_COMP del documento sono state assegnate etichette.

label-process-1

Quando selezioni un'entità casella di controllo con lo strumento Riquadro di delimitazione, seleziona solo la casella di controllo stessa e non il testo associato. Assicurati che l'entità della casella di controllo visualizzata a sinistra sia selezionata o deselezionata in modo che corrisponda a quanto indicato nel documento.

label-process-2

Quando etichetti le entità principali e secondarie, non etichettare le entità principali. Le entità principali sono solo contenitori delle entità secondarie. Etichetta solo le entità secondarie. Le entità principali vengono aggiornate automaticamente.

Quando etichetti le entità secondarie, etichetta la prima entità secondaria e poi associa le entità secondarie correlate a quella riga. Lo noti nella seconda entità secondaria la prima volta che etichetti queste entità. Ad esempio, con una fattura, se etichetti description, sembra una qualsiasi altra entità. Tuttavia, se accanto quantità etichetti un'altra colonna, ti verrà chiesto di scegliere l'elemento principale.

Ripeti questo passaggio per ogni elemento pubblicitario selezionando Nuova entità principale per ogni nuovo elemento pubblicitario.

Le entità principali e secondarie sono una funzionalità di anteprima e sono supportate solo per le tabelle con un livello di nidificazione. I modelli di base supportano tre livelli di campi (antenato, principale, secondario), pertanto le entità secondarie possono avere un livello di elementi secondari.

Tabelle rapide

Quando etichetti una tabella, potrebbe essere noioso etichettare ogni riga più volte. Esiste uno strumento molto pratico che può replicare la struttura dell'entità di una riga. Tieni presente che questa funzionalità funziona solo con le righe allineate orizzontalmente.

  1. Innanzitutto, etichetta la prima riga come di consueto.
  2. Quindi, tieni il puntatore sopra l'entità padre che rappresenta la riga. Seleziona Aggiungi altre righe. La riga diventa un modello per creare altre righe.

    label-process-3

  3. Seleziona il resto dell'area della tabella.

    label-process-4

Lo strumento indovina le annotazioni e di solito funziona. Per le tabelle che non riesce a gestire, annota manualmente.

Utilizzare le scorciatoie da tastiera nella console

Per visualizzare le scorciatoie da tastiera disponibili, seleziona il menu in alto a destra nella console di etichettatura. Viene visualizzato un elenco di scorciatoie da tastiera, come mostrato nella tabella seguente.

Azione Scorciatoia
Aumenta zoom Alt + = (Opzione + = su macOS)
Diminuisci zoom Alt + - (Opzione + - su macOS)
Adatta alla finestra Alt + 0 (Opzione + 0 su macOS)
Scorri per eseguire lo zoom Alt + scorrimento (Opzione + scorrimento su macOS)
Panoramica Scorrimento
Panoramica invertita Maiusc + scorrimento
Trascina per eseguire la panoramica Barra spaziatrice + trascinamento del mouse
Annulla Ctrl + Z (Control + Z su macOS)
Ripeti Ctrl+Shift+Z (Control+Shift+Z su macOS)

Etichetta automaticamente

Se disponibile, puoi utilizzare una versione esistente del tuo processore per iniziare a etichettare.

  1. L'etichettatura automatica può essere avviata durante l'import. Tutti i documenti vengono annotati utilizzando la versione del processore specificata.

    label-process-5

  2. L'etichettatura automatica può essere avviata dopo l'import per i documenti nella categoria senza etichetta o con etichetta automatica. Tutti i documenti selezionati vengono annotati utilizzando la versione del processore specificata.

    label-process-6

Non puoi addestrare o addestrare sulla base di un modello predefinito i documenti con etichetta automatica né utilizzarli nel set di test senza contrassegnarli come etichettati. Rivedi e correggi manualmente le annotazioni con etichetta automatica, quindi seleziona Contrassegna come etichettato per salvare le correzioni. Puoi quindi assegnare i documenti come appropriato.

Importa documenti preetichettati

Puoi importare file JSON Document. Se entity nel documento corrisponde all'etichetta nello schema del programma di elaborazione, entity viene convertito in un'istanza di etichetta dall'importatore. Esistono diversi modi per ottenere i file dei documenti JSON:

Best practice per l'etichettatura dei documenti

Per addestrare un elaboratore di alta qualità è necessaria un'etichettatura coerente. Ti consigliamo di:

  • Crea istruzioni di etichettatura: le istruzioni devono includere esempi sia per i casi comuni che per i casi limite. Ecco alcuni suggerimenti:

    • Spiega quali campi devono essere annotati e come applicare esattamente una etichettatura coerente. Ad esempio, quando etichetti "importo", specifica se il simbolo di valuta deve essere etichettato. Se le etichette non sono coerenti, la qualità del processore viene ridotta.
    • Etichetta tutte le occorrenze di un'entità, anche se il tipo di etichetta è REQUIRED_ONCE o OPTIONAL_ONCE. Ad esempio, se invoice_id compare due volte nel documento, etichetta tutte le occorrenze.
    • In genere, è preferibile etichettare prima con lo strumento riquadro di delimitazione predefinito. Se non va a buon fine, utilizza lo strumento di selezione del testo.
    • Se il valore dell'etichetta non viene rilevato correttamente dall'OCR, non correggerlo manualmente. Ciò lo renderebbe inutilizzabile per scopi di addestramento.

Ecco alcune istruzioni di esempio per l'etichettatura:

  • Addestrare gli annotatori: assicurati che gli annotatori comprendano e possano seguire le linee guida senza errori sistematici. Un modo per farlo è chiedere a diversi apprendisti di annotare lo stesso insieme di documenti. L'istruttore può quindi controllare la qualità del lavoro di annotazione di ciascun utente in formazione. Potresti dover ripetere questa procedura finché gli apprendisti non raggiungono un livello di accuratezza di riferimento.
  • Revisioni iniziali: i primi documenti (circa 10) etichettati per un caso d'uso da un nuovo etichettatore devono essere esaminati prima che un numero elevato di documenti venga etichettato per evitare un numero elevato di errori da correggere.
  • Revisioni della qualità delle annotazioni: data la natura laboriosa dell'annotazione, anche gli annotatori esperti possono commettere errori. Consigliamo di controllare le annotazioni almeno da un altro annotatore qualificato.

Sincronizza di nuovo il set di dati

La risincronizzazione mantiene la cartella Cloud Storage del tuo set di dati coerente con l'indice interno dei metadati di Document AI. Questa operazione è utile se hai apportato modifiche accidentali alla cartella Cloud Storage e vuoi sincronizzare i dati.

Per eseguire la risincronizzazione:

Nella scheda Dettagli del processore, accanto alla riga Posizione dello spazio di archiviazione, seleziona e poi Sincronizza di nuovo il set di dati.

label-process-8

Note sull'utilizzo:

  • Se elimini un documento dalla cartella Cloud Storage, la ricorsione lo rimuove dal set di dati.
  • Se aggiungi un documento alla cartella Cloud Storage, la ricorsione non lo aggiunge al set di dati. Per aggiungere documenti, importali.
  • Se modifichi le etichette dei documenti nella cartella Cloud Storage, la ricorsiniggiornamento aggiorna le etichette dei documenti nel set di dati.

Esegui la migrazione del set di dati

L'importazione e l'esportazione ti consentono di spostare tutti i documenti di un set di dati da un elaboratore all'altro. Questa operazione può essere utile se hai elaboratori in diverse regioni o progetti Google Cloud , se hai elaboratori diversi per l'implementazione e la produzione o per il consumo offline generale.

Tieni presente che vengono esportati solo i documenti e le relative etichette. I metadati del set di dati, come lo schema del processore, le assegnazioni dei documenti (addestramento/test/non assegnati) e lo stato dell'etichettatura dei documenti (etichettati, non etichettati, con etichetta automatica), non vengono esportati.

Copiare e importare il set di dati e poi addestrare il processore di destinazione non è esattamente lo stesso che addestrare il processore di origine. Questo perché all'inizio del processo di addestramento vengono utilizzati valori casuali. Utilizza la chiamata dell'importProcessorVersion API per importare e eseguire la migrazione dello stesso modello tra i progetti. Questa è la migliore pratica per la migrazione dei processori in ambienti di livello superiore (ad esempio da sviluppo a staging a produzione), se i criteri lo consentono.

Esporta set di dati

Per esportare tutti i documenti come file JSON Document in una cartella Cloud Storage, seleziona Esporta set di dati.

Ecco alcuni aspetti importanti da tenere presente:

  1. Durante l'esportazione vengono create tre sottocartelle: Test, Train e Non assegnata. I documenti vengono inseriti nelle sottocartelle di conseguenza.

  2. Lo stato dell'etichettatura di un documento non viene esportato. Se in un secondo momento importi i documenti, questi non verranno contrassegnati come etichettati automaticamente.

  3. Se Cloud Storage si trova in un altro progetto Google Cloud , assicurati di concedere l'accesso in modo che Document AI possa scrivere file in quella posizione. In particolare, devi concedere il ruolo Storage Object Creator all'agente di servizio di base di Document AI service-{project-id}@gcp-sa-prod-dai-core.iam.gserviceaccount.com. Per maggiori informazioni, consulta Agenti di servizio.

Importa set di dati

La procedura è la stessa di Importa documenti.

Guida dell'utente all'etichettatura selettiva

L'etichettatura selettiva ti aiuta a ricevere consigli sui documenti da etichettare. Puoi creare diversi set di dati di addestramento e test per addestrare modelli rappresentativi. Ogni volta che viene eseguita l'etichettatura selettiva, vengono selezionati i documenti più diversi (fino a 30) del set di dati.

Ricevere documenti suggeriti

  1. Crea un processore CDE e importa i documenti.

    • Sono necessari almeno 100 per l'addestramento (25 per i test).
    • Una volta importati documenti sufficienti e dopo l'etichettatura selettiva, dovrebbe apparire la barra delle informazioni.

    label-process-9

    label-process-10

  2. Nel caso di un elaboratore CDE con zero documenti suggeriti, importa altri documenti per avere un numero sufficiente di documenti in entrambe le suddivisioni per il campionamento.

    • In questo modo, i documenti suggeriti verranno attivati nella Categoria suggerita. Dovresti essere in grado di richiedere manualmente i documenti suggeriti.
    • In alto è disponibile un nuovo filtro per escludere i documenti suggeriti.

    label-process-11

Etichettare i documenti suggeriti

  1. Vai a Categoria suggerita nel riquadro dell'elenco delle etichette a sinistra. Inizia a etichettare questi documenti.

    label-process-12

  2. Seleziona Etichettatura automatica nella barra delle informazioni se il processore è addestrato. Etichetta i documenti suggeriti.

    label-process-13

  3. Quando nel processore sono presenti documenti suggeriti tra cui scegliere, puoi selezionare Esamina ora nella barra. Tutti i documenti etichettati automaticamente devono essere esaminati per verificarne l'accuratezza. Inizia a esaminare.

    label-process-14

Esegui l'addestramento dopo aver etichettato tutti i documenti suggeriti

Vai a Addestramento ora nella barra delle informazioni. Quando i documenti suggeriti sono contrassegnati, dovresti visualizzare la seguente barra informativa che consiglia di eseguire l'addestramento.

label-process-15

Funzionalità supportate e limitazioni

Funzionalità Descrizione Supportato
Supporto per i vecchi processori Potrebbe non funzionare bene con i vecchi processori con set di dati importati in precedenza