Si bien HITL Labeler Workbench proporciona una interfaz WYSIWYG (lo que ves es lo que obtienes) que asigna entidades de documentos a las etiquetas extraídas, lo que facilita la comparación y corrección para el etiquetador. Se necesita un documento de instrucciones para indicar a los etiquetadores humanos qué etiquetas deben buscar y agregar, en caso de que el modelo de Document AI o los filtros de validación de HITL no las detecten. Esto incluye lo siguiente:
- Son las etiquetas que se revisarán.
- Si algún campo es obligatorio u opcional
- Cualquier lógica empresarial para
- Etiquetas correctas (por ejemplo, agregar "EE.UU." para las direcciones de Estados Unidos que no lo especifican)
- Rechaza documentos con el campo de rechazo correcto, como rechazar facturas superiores a USD 10,000.
- Nombres de etiquetas especiales en el documento que se asignan a etiquetas de esquema, de modo que el etiquetador pueda agregarlas, como "Cliente núm." = "Cuenta núm.".
- Se pueden configurar como filtros en la configuración de la tarea de HITL.
Diseña buenas instrucciones
Las instrucciones buenas son el factor más importante para obtener buenos resultados con el etiquetado realizado por personas. Las instrucciones buenas son aquellas que les indican a las personas que realizan el etiquetado lo que quieres que hagan. Estas son algunas pautas para crear instrucciones buenas:
- Es posible que los etiquetadores no tengan tus conocimientos del tema. Las distinciones que les solicites a los etiquetadores deben ser fáciles de entender para alguien que no esté familiarizado con tu caso de uso.
- Evita que las instrucciones sean demasiado extensas. Lo mejor es que el etiquetador pueda revisarlas y entenderlas en 20 minutos.
- Las instrucciones deben describir el concepto de la tarea, además de los detalles sobre cómo etiquetar los datos.
- Si las instrucciones tienen un conjunto de etiquetas correspondiente, deben abarcar todas las etiquetas de ese conjunto. El nombre de la etiqueta en las instrucciones debe coincidir con el nombre en el conjunto de etiquetas.
- A menudo, se necesitan varias iteraciones para crear instrucciones buenas. Recomendamos etiquetar primero un conjunto de datos pequeño y, luego, ajustar las instrucciones de acuerdo con lo que se vea en los resultados obtenidos.
Un buen archivo de instrucciones debe incluir las siguientes secciones:
- Lista de etiquetas y descripción: Enumera todas las etiquetas que se usan y describe el significado de cada una.
- Ejemplos: Para cada etiqueta, da al menos tres ejemplos positivos y un ejemplo negativo. Estos ejemplos deben abarcar diferentes casos.
- Abarca los casos extremos. Aclara tantos casos extremos como puedas. De esta forma, se reduce la necesidad de que el etiquetador deba interpretar la etiqueta. Por ejemplo, si necesitas dibujar un cuadro delimitador para una persona, es mejor aclarar lo siguiente:
- Si hay varias personas, ¿necesitas un cuadro para cada una?
- Si una persona está oculta, ¿necesitas un cuadro?
- ¿Necesitas un cuadro para una persona que se vea parcialmente en la imagen?
- ¿Necesitas un cuadro para una persona en una foto o pintura?
- Describe cómo agregar anotaciones. Por ejemplo:
- Para un cuadro delimitador, ¿necesitas un cuadro restrictivo o más amplio?
- Para la extracción de entidades de texto, ¿dónde debería comenzar y terminar la entidad de interés?
- Aclaración de las etiquetas: Si dos etiquetas son similares o se pueden confundir fácilmente, brinda ejemplos para aclarar las diferencias.
Ejemplos visuales
El ejemplo visual proporciona aclaraciones a los etiquetadores sobre dónde esperar diferentes entidades en el documento y cómo se asignan a las etiquetas extraídas en el esquema. Incluye ejemplos visuales en tus instrucciones, como los siguientes: