Créer des instructions pour l'examen HITL

L'atelier HITL Labeler fournit une interface WYSIWYG (What You See Is What You Get) qui mappe les entités de document aux libellés extraits, ce qui permet à l'étiqueteur de comparer et de corriger facilement les libellés. Un document d'instructions est nécessaire pour indiquer aux annotateurs humains les libellés à rechercher et à ajouter, au cas où le modèle Document AI ou les filtres de validation de HITL les auraient manqués. Par exemple :

  • Les libellés à examiner.
  • Indique si des champs sont obligatoires ou facultatifs.
  • Toute logique métier à
    • Corrigez les libellés (par exemple, ajoutez "États-Unis" pour les adresses aux États-Unis qui ne le précisent pas).
    • Rejetez les documents avec le champ de rejet approprié (par exemple, "Rejeter les factures de plus de 10 000 $").
  • Noms de libellés spéciaux dans le document qui correspondent aux libellés de schéma, afin que l'annotateur puisse les ajouter (par exemple, "Client #" = "Compte #").
  • Vous pouvez les configurer en tant que filtres dans la configuration de la tâche HITL.

Concevoir des instructions de bonne qualité

Si vous espérez que votre tâche d'ajout d'étiquettes renvoie de bons résultats, vos instructions doivent être de bonne qualité. De bonnes instructions indiquent aux étiqueteurs humains ce que vous attendez d'eux. Voici quelques consignes pour créer des instructions de bonne qualité :

  • Les étiqueteurs humains n'ont peut-être pas votre connaissance du domaine. Lorsque vous demandez aux étiqueteurs de faire certaines distinctions, assurez-vous qu'elles soient faciles à comprendre pour une personne qui ne connaît pas votre cas d'utilisation.
  • Évitez de formuler des instructions trop longues. Il serait préférable qu'un étiqueteur puisse les réviser et les comprendre en moins de 20 minutes.
  • Les instructions doivent décrire le concept de la tâche et donner des détails sur la manière dont les données doivent être étiquetées.
  • Si vos instructions comportent un ensemble d'étiquettes correspondant, elles doivent couvrir toutes les étiquettes de cet ensemble. Le nom d'étiquette donné dans les instructions doit correspondre à celui donné dans l'ensemble d'étiquettes.
  • Il faut souvent plusieurs itérations avant d'arriver à créer des instructions de bonne qualité. Nous vous recommandons d'utiliser d'abord un petit ensemble de données, puis de modifier vos instructions en fonction des résultats obtenus.

Un fichier d'instructions de bonne qualité doit inclure les sections suivantes :

  • Liste et description des étiquettes : répertoriez toutes les étiquettes utilisées et décrivez la signification de chacune d'elles.
  • Exemples : pour chaque étiquette, donnez au moins trois exemples positifs et un exemple négatif. Ces exemples doivent couvrir différents cas.
  • Couvrez les cas spéciaux. Clarifiez autant de cas spéciaux que possible. Cela réduit la nécessité pour l'étiqueteur d'interpréter l'étiquette. Par exemple, si vous devez dessiner un cadre de délimitation pour une personne, il est préférable de préciser les points suivants :
    • S'il y a plusieurs personnes, avez-vous besoin d'un cadre pour chacune d'entre elles ?
    • Si une personne est cachée, avez-vous besoin d'un cadre ?
    • Avez-vous besoin d'un cadre pour une personne qui n'apparaît que partiellement dans l'image ?
    • Avez-vous besoin d'un cadre pour une personne figurant dans une photo ou un tableau ?
  • Indiquez comment ajouter des annotations. Par exemple :
    • Dans le cas d'un cadre de délimitation, avez-vous besoin d'un cadre restreint ou relativement large ?
    • Dans le cas d'une extraction d'entité de texte, où doit commencer et finir l'entité en question ?
  • Clarification concernant les étiquettes. Si deux étiquettes sont similaires ou faciles à confondre, donnez des exemples pour clarifier les différences.

Exemples visuels

L'exemple visuel permet aux annotateurs de savoir où trouver les différentes entités dans le document et comment elles correspondent aux libellés extraits dans le schéma. Incluez des exemples visuels dans vos instructions, comme suit :

example-instruction