Crear instrucciones para una revisión de HITL

Aunque HITL Labeler Workbench proporciona una interfaz WYSIWYG (lo que ves es lo que obtienes) que asigna entidades de documentos a las etiquetas extraídas, lo que facilita al etiquetador la comparación y la corrección. Se necesita un documento de instrucciones para indicar a los etiquetadores humanos qué etiquetas deben buscar y añadir, y en caso de que el modelo de Document AI o los filtros de validación de HITL no las detecten. Entre los datos que recoge se incluyen los siguientes:

  • Qué etiquetas revisar.
  • Si algún campo es obligatorio u opcional.
  • Cualquier lógica empresarial para
    • Etiquetas correctas (por ejemplo, añadir "EE. UU." a las direcciones de Estados Unidos que no lo especifiquen).
    • Rechazar documentos con el campo de rechazo correcto,como facturas de más de 10.000 USD.
  • Nombres de etiquetas especiales del documento que se asignan a etiquetas de esquema para que el etiquetador pueda añadirlas (por ejemplo, "Cliente n.º" = "Cuenta n.º").
  • Se pueden configurar como filtros en la configuración de la tarea de revisión humana.

Diseñar buenas instrucciones

Unas buenas instrucciones son el factor más importante para obtener buenos resultados de etiquetado humano. Las instrucciones adecuadas son las que indican al personal de etiquetado lo que quieres que haga. A continuación, se incluyen algunas directrices para crear instrucciones adecuadas:

  • Es posible que los etiquetadores humanos no tengan conocimientos sobre tu dominio. Las distinciones que pidas a los etiquetadores deben ser fáciles de entender para alguien que no esté familiarizado con tu caso práctico.
  • No hagas que las instrucciones sean demasiado largas. Lo ideal es que un etiquetador pueda revisarlas y entenderlas en un plazo de 20 minutos.
  • En las instrucciones se debe describir el concepto de la tarea, así como los detalles sobre cómo etiquetar los datos.
  • Si tus instrucciones tienen un conjunto de etiquetas correspondiente, deben cubrir todas las etiquetas de ese conjunto. El nombre de la etiqueta de las instrucciones debe coincidir con el nombre del conjunto de etiquetas.
  • A menudo, se necesitan varias iteraciones para crear buenas instrucciones. Te recomendamos que primero etiquetes un conjunto de datos pequeño y, después, ajustes las instrucciones en función de los resultados que obtengas.

Un buen archivo de instrucciones debe incluir las siguientes secciones:

  • Lista y descripción de las etiquetas: indica todas las etiquetas que se utilizan y describe el significado de cada una.
  • Ejemplos: para cada etiqueta, proporcione al menos tres ejemplos positivos y uno negativo. Estos ejemplos deben abarcar diferentes casos.
  • Cubrir los casos límite. Aclara todos los casos límite que puedas. De esta forma, el etiquetador no tendrá que interpretar la etiqueta. Por ejemplo, si tienes que dibujar un cuadro delimitador para una persona, es mejor que aclares lo siguiente:
    • Si hay varias personas, ¿necesitas una caja para cada una?
    • Si una persona está oculta, ¿necesitas un recuadro?
    • ¿Necesitas un recuadro para una persona que aparece parcialmente en la imagen?
    • ¿Necesitas un recuadro para una persona en una imagen o un cuadro?
  • Describe cómo añadir anotaciones. Por ejemplo:
    • En el caso de un cuadro delimitador, ¿necesitas un cuadro ajustado o uno más amplio?
    • En la extracción de entidades de texto, ¿dónde debe empezar y terminar la entidad de interés?
  • Aclaración sobre las etiquetas. Si dos etiquetas son similares o fáciles de confundir, proporciona ejemplos para aclarar las diferencias.

Ejemplos visuales

El ejemplo visual aclara a los etiquetadores dónde deben buscar las diferentes entidades en el documento y cómo se asignan a las etiquetas extraídas en el esquema. Incluye ejemplos visuales en tus instrucciones, como los siguientes:

example-instruction