Creazione di istruzioni per la revisione HITL

HITL Labeler Workbench fornisce un'interfaccia WYSIWYG (What You See Is What You Get) che mappa le entità dei documenti alle etichette estratte, il che consente all'etichettatore di confrontare e correggere facilmente. È necessario un documento di istruzioni per indicare agli etichettatori umani quali etichette cercare e aggiungere e, nel caso in cui non vengano rilevate dal modello Document AI o dai filtri di convalida di HITL. Sono inclusi:

  • Quali etichette esaminare.
  • Indica se alcuni campi sono obbligatori o facoltativi.
  • Qualsiasi logica di business per
    • Correggi le etichette (ad esempio, aggiungi "USA" per gli indirizzi degli Stati Uniti che non specificano gli Stati Uniti).
    • Rifiutare i documenti con il campo di rifiuto corretto,ad esempio rifiutare le fatture superiori a 10.000 $.
  • Nomi di etichette speciali nel documento che mappano le etichette dello schema, in modo che l'etichettatore possa aggiungerle, ad esempio "Client #" = "Account #".
  • Questi possono essere configurati come filtri nella configurazione dell'attività HITL.

Progettare istruzioni efficaci

Le istruzioni chiare sono il fattore più importante per ottenere buoni risultati di etichettatura da parte di persone. Le istruzioni efficaci sono quelle che consentono agli etichettatori umani di sapere cosa vuoi che facciano. Ecco alcune linee guida per creare istruzioni efficaci:

  • Gli etichettatori umani potrebbero non avere le tue conoscenze nel dominio. Le distinzioni che chiedi ai labeler di fare devono essere facili da comprendere per chi non conosce il tuo caso d'uso.
  • Evita di rendere le istruzioni troppo lunghe. È preferibile che un etichettatore possa esaminarli e comprenderli entro 20 minuti.
  • Le istruzioni devono descrivere il concetto dell'attività, nonché i dettagli su come etichettare i dati.
  • Se le istruzioni hanno un set di etichette corrispondente, devono coprire tutte le etichette del set. Il nome dell'etichetta nelle istruzioni deve corrispondere a quello nell'insieme di etichette.
  • Spesso sono necessarie diverse iterazioni per creare istruzioni efficaci. Ti consigliamo di creare prima un piccolo set di dati etichettato, quindi di modificare le istruzioni in base a ciò che vedi nei risultati che ricevi.

Un buon file di istruzioni deve includere le seguenti sezioni:

  • Elenco e descrizione delle etichette: elenca tutte le etichette utilizzate e descrivi il significato di ciascuna.
  • Esempi: per ogni etichetta, fornisci almeno tre esempi positivi e un esempio negativo. Questi esempi devono coprire casi diversi.
  • Coprire i casi limite. Chiarisci il maggior numero possibile di casi limite, in modo da ridurre la necessità per l'etichettatore di interpretare l'etichetta. Ad esempio, se devi disegnare un riquadro di delimitazione per una persona, è meglio chiarire:
    • Se ci sono più persone, hai bisogno di una casella per ogni persona?
    • Se una persona è coperta, hai bisogno di una casella?
    • Hai bisogno di una casella per una persona parzialmente visibile nell'immagine?
    • Hai bisogno di una casella per una persona in una foto o un dipinto?
  • Descrivi come aggiungere annotazioni. Ad esempio:
    • Per un riquadro di delimitazione, hai bisogno di una casella stretta o una casella larga?
    • Per l'estrazione delle entità di testo, dove deve iniziare e terminare l'entità interessata?
  • Chiarimento sulle etichette. Se due etichette sono simili o facili da confondere, fornisci esempi per chiarire le differenze.

Esempi visivi

L'esempio visivo fornisce agli etichettatori chiarimenti su dove aspettarsi diverse entità nel documento e su come vengono associate alle etichette estratte nello schema. Includi esempi visivi nelle istruzioni, ad esempio:

example-instruction