Anleitungen für die HITL-Prüfung erstellen

Die HITL Labeler Workbench bietet eine WYSIWYG-Oberfläche (What You See Is What You Get), die Dokumententitäten den extrahierten Labels zuordnet. So kann der Labeler die Labels einfach vergleichen und korrigieren. Ein Anleitungsdokument ist erforderlich, um die menschlichen Labelersteller darüber zu informieren, nach welchen Labels sie suchen und welche sie hinzufügen müssen, falls das Document AI-Modell oder die Validierungsfilter von HITL sie übersehen. Dazu zählen:

  • Welche Labels überprüft werden sollen.
  • Ob Felder obligatorisch oder optional sind.
  • Geschäftslogik für
    • Korrekte Labels (z. B. „USA“ für Adressen in den USA, in denen die USA nicht angegeben sind)
    • Lehnen Sie Dokumente mit dem richtigen Ablehnungsfeld ab,z. B. Rechnungen über 10.000 $.
  • Spezielle Labelnamen im Dokument, die Schema-Labels zugeordnet werden können, damit der Labeler sie hinzufügen kann, z. B. „Client #“ = „Account #“.
  • Diese können als Filter in der HITL-Aufgabenkonfiguration eingerichtet werden.

Effektive Anleitungen entwerfen

Eine effektive Anleitung ist der wichtigste Faktor für zufriedenstellende Ergebnisse bei der menschlichen Labelerstellung. Eine effektive Anleitung ist eine Anleitung, die menschlichen Labelerstellern mitteilt, was sie tun sollen. Hier finden Sie einige Richtlinien für die Erstellung einer effektiven Anleitung:

  • Die menschlichen Labelersteller haben möglicherweise nicht Ihr Fachwissen. Die Unterscheidungen, die Labelersteller treffen sollen, müssen deshalb auch für Personen verständlich sein, die nicht mit Ihrem Anwendungsfall vertraut sind.
  • Vermeiden Sie zu lange Anleitungen. Am besten ist es, wenn ein Labelersteller sie innerhalb von 20 Minuten lesen und verstehen kann.
  • In der Anleitung muss das Konzept der Aufgabe beschrieben und im Detail angegeben werden, wie die Daten mit Labels versehen werden sollen.
  • Wenn Ihre Anleitungen einen entsprechenden Labelsatz enthalten, müssen alle Labels in diesem Satz behandelt werden. Der Labelname in der Anleitung muss mit dem Namen im Labelsatz übereinstimmen.
  • Oft sind mehrere Wiederholungen für das Erstellen einer effektiven Anleitung erforderlich. Wir empfehlen, zuerst ein kleines Dataset mit Labels zu versehen und dann Ihre Anleitung basierend auf den zurückgegebenen Ergebnissen anzupassen.

Eine gute Anleitungsdatei muss die folgenden Abschnitte enthalten:

  • Labelliste und -beschreibung: Listen Sie alle verwendeten Labels auf und beschreiben Sie die Bedeutung der einzelnen Labels.
  • Beispiele: Geben Sie für jedes Label mindestens drei positive Beispiele und ein negatives Beispiel an. Die Beispiele müssen verschiedene Fälle abdecken.
  • Beziehen Sie Grenzfälle ein. Klären Sie möglichst viele Randfälle, sodass der Labelersteller die Labels nicht mehr interpretieren muss. Wenn beispielsweise ein Begrenzungsrahmen um eine Person gezeichnet werden soll, ist es besser, vorab Folgendes zu klären:
    • Wenn es mehrere Personen gibt, benötigen Sie für jede Person einen eigenen Rahmen?
    • Wenn eine Person verdeckt ist, benötigen Sie einen Rahmen?
    • Benötigen Sie einen Rahmen für eine Person, die nur teilweise im Bild zu sehen ist?
    • Benötigen Sie einen Rahmen für eine Person auf einer Abbildung oder auf einem Gemälde?
  • Beschreiben Sie, wie Annotationen hinzugefügt werden sollen. Beispiel:
    • Benötigen Sie einen eng oder einen mit Abstand gezogenen Begrenzungsrahmen?
    • Wo beginnt bei der Extraktion von Textentitäten die jeweilige Entität und wo endet sie?
  • Klarstellung zu Labels: Wenn zwei Labels ähnlich oder leicht zu verwechseln sind, geben Sie Beispiele an, die die Unterschiede verdeutlichen.

Visuelle Beispiele

Das visuelle Beispiel verdeutlicht den Labelern, wo sie verschiedene Entitäten im Dokument erwarten können und wie sie den extrahierten Labels im Schema zugeordnet werden. Fügen Sie Ihren Anleitungen visuelle Beispiele wie die folgenden hinzu:

example-instruction