Crear instrucciones para la revisión de HITL

Mientras que el HITL Labeler Workbench proporciona una interfaz de lo que ves es lo que obtienes (WYSIWYG) que asigna entidades de documentos a las etiquetas extraídas, lo que facilita que el etiquetador las compare y corrija. Se necesita un documento de instrucciones para indicar a los etiquetadores manuales qué etiquetas buscar y agregar, y en caso de que el modelo de Document AI o los filtros de validación de HITL las omitan. Esto incluye lo siguiente:

  • Qué etiquetas revisar.
  • Si algún campo es obligatorio o opcional.
  • Cualquier lógica empresarial para
    • Etiquetas correctas (por ejemplo, agregar "EE.UU." para las direcciones de Estados Unidos que no especifican EE.UU.)
    • Rechaza documentos con el campo de rechazo correcto, como facturas rechazadas de más de USD 10,000.
  • Son nombres de etiquetas especiales en el documento que se asignan a etiquetas de esquema, de modo que el etiquetador pueda agregarlas, como "Cliente n°" = "Cuenta n°".
  • Se pueden configurar como filtros en la configuración de la tarea de HITL.

Diseña instrucciones claras

Las instrucciones buenas son el factor más importante para obtener buenos resultados con el etiquetado realizado por personas. Las instrucciones buenas son aquellas que les permiten a las personas que realizan el etiquetado saber qué es lo que quieres que hagan. Estos son algunos lineamientos para crear buenas instrucciones:

  • Es posible que los etiquetadores manuales no tengan tus conocimientos del tema. Las distinciones que les solicites a los etiquetadores deben ser fáciles de entender para alguien que no esté familiarizado con tu caso de uso.
  • Evita que las instrucciones sean demasiado extensas. Lo mejor es que el etiquetador pueda revisarlas y entenderlas en 20 minutos.
  • Las instrucciones deben describir el concepto de la tarea, además de los detalles sobre cómo etiquetar los datos.
  • Si las instrucciones tienen un conjunto de etiquetas correspondiente, deben abarcar todas las etiquetas de ese conjunto. El nombre de la etiqueta en las instrucciones debe coincidir con el nombre en el conjunto de etiquetas.
  • A menudo, se necesitan varias iteraciones para crear instrucciones buenas. Recomendamos etiquetar primero un conjunto de datos pequeño y, luego, ajustar las instrucciones de acuerdo con lo que se vea en los resultados obtenidos.

Un buen archivo de instrucciones debe incluir las siguientes secciones:

  • Lista de etiquetas y descripción: Enumera todas las etiquetas que se usan y describe el significado de cada una.
  • Ejemplos: Para cada etiqueta, da al menos tres ejemplos positivos y un ejemplo negativo. Estos ejemplos deben abarcar diferentes casos.
  • Abarca los casos extremos. Aclara tantos casos extremos como puedas. De esta forma, se reduce la necesidad de que el etiquetador deba interpretar la etiqueta. Por ejemplo, si necesitas dibujar un cuadro de límite para una persona, es mejor aclarar lo siguiente:
    • Si hay varias personas, ¿necesitas un cuadro para cada una?
    • Si una persona está oculta, ¿necesitas un cuadro?
    • ¿Necesitas un cuadro para una persona que se vea parcialmente en la imagen?
    • ¿Necesitas un cuadro para una persona en una foto o pintura?
  • Describe cómo agregar anotaciones. Por ejemplo:
    • Para un cuadro de límite, ¿necesitas un cuadro restrictivo o más amplio?
    • Para la extracción de entidades de texto, ¿dónde debería comenzar y terminar la entidad de interés?
  • Aclaración de las etiquetas: Si dos etiquetas son similares o se pueden confundir fácilmente, brinda ejemplos para aclarar las diferencias.

Ejemplos visuales

El ejemplo visual aclara a los etiquetadores dónde esperar diferentes entidades en el documento y cómo se asignan a las etiquetas extraídas en el esquema. Incluye ejemplos visuales en tus instrucciones, como los siguientes:

example-instruction