Anleitungen für die HITL-Prüfung erstellen
Die HITL Labeler Workbench bietet eine WYSIWYG-Oberfläche (What You See Is What You Get), die Dokumententitäten den extrahierten Labels zuordnet. So können die Labeler sie ganz einfach vergleichen und korrigieren. In einer Anleitung wird den menschlichen Labelern erklärt, nach welchen Labels sie suchen und welche sie hinzufügen sollen, falls sie vom Document AI-Modell oder den Validierungsfiltern von HITL übersehen werden. Dazu zählen:
- Welche Labels geprüft werden sollen.
- Ob Felder obligatorisch oder optional sind.
- Geschäftslogik für
- Korrigieren Sie Labels. Fügen Sie beispielsweise „USA“ für Adressen in den USA hinzu, für die kein Land angegeben ist.
- Dokumente mit dem richtigen Ablehnungsfeld ablehnen,z. B. Rechnungen mit einem Wert von über 10.000 $.
- Spezielle Labelnamen im Dokument, die Schemalabels zugeordnet sind, damit die Labeler diese hinzufügen können, z. B. „Kundennummer“ = „Kontonummer“.
- Diese können in der HITL-Aufgabenkonfiguration als Filter eingerichtet werden.
Effektive Anleitungen entwerfen
Eine effektive Anleitung ist der wichtigste Faktor für zufriedenstellende Ergebnisse bei der menschlichen Labelerstellung. Eine gute Anleitung informiert die menschlichen Labeler darüber, was sie tun sollen. Hier finden Sie einige Richtlinien für die Erstellung einer effektiven Anleitung:
- Die menschlichen Labelersteller haben möglicherweise nicht Ihre Kenntnisse in Ihrem Fachgebiet. Die Unterscheidungen, die Labelersteller treffen sollen, müssen deshalb auch für Personen verständlich sein, die nicht mit Ihrem Anwendungsfall vertraut sind.
- Vermeiden Sie zu lange Anleitungen. Am besten ist es, wenn ein Labelersteller sie innerhalb von 20 Minuten lesen und verstehen kann.
- In der Anleitung muss das Konzept der Aufgabe beschrieben und im Detail angegeben werden, wie die Daten mit Labels versehen werden sollen.
- Wenn Ihre Anleitungen einen entsprechenden Labelsatz enthalten, müssen alle Labels in diesem Satz behandelt werden. Der Labelname in der Anleitung muss mit dem Namen im Labelsatz übereinstimmen.
- Oft sind mehrere Wiederholungen für das Erstellen einer effektiven Anleitung erforderlich. Wir empfehlen, zuerst ein kleines Dataset mit Labels zu versehen und dann Ihre Anleitung basierend auf den zurückgegebenen Ergebnissen anzupassen.
Eine gute Anleitungsdatei muss die folgenden Abschnitte enthalten:
- Labelliste und -beschreibung: Listen Sie alle verwendeten Labels auf und beschreiben Sie die Bedeutung der einzelnen Labels.
- Beispiele: Geben Sie für jedes Label mindestens drei positive und ein negatives Beispiel an. Die Beispiele müssen verschiedene Fälle abdecken.
- Beziehen Sie Grenzfälle ein. Klären Sie möglichst viele Randfälle, sodass der Labelersteller die Labels nicht mehr interpretieren muss. Wenn beispielsweise ein Begrenzungsrahmen um eine Person gezeichnet werden soll, ist es besser, vorab Folgendes zu klären:
- Wenn es mehrere Personen gibt, benötigen Sie für jede Person einen eigenen Rahmen?
- Benötigen Sie einen Rahmen, wenn eine Person verdeckt ist?
- Benötigen Sie einen Rahmen für eine Person, die nur teilweise im Bild zu sehen ist?
- Benötigen Sie einen Rahmen für eine Person auf einer Abbildung oder auf einem Gemälde?
- Beschreiben Sie, wie Annotationen hinzugefügt werden sollen. Beispiel:
- Benötigen Sie einen eng oder einen mit Abstand gezogenen Begrenzungsrahmen?
- Wo beginnt bei der Extraktion von Textentitäten die jeweilige Entität und wo endet sie?
- Klarstellung zu Labels: Wenn zwei Labels ähnlich oder leicht zu verwechseln sind, geben Sie Beispiele an, die die Unterschiede verdeutlichen.
Visuelle Beispiele
Das visuelle Beispiel verdeutlicht den Bearbeitern, wo sie verschiedene Entitäten im Dokument erwarten können und wie sie den extrahierten Labels im Schema zugeordnet werden. Fügen Sie Ihrer Anleitung visuelle Beispiele wie die folgenden hinzu: