Como criar instruções para revisão de HITL
Enquanto o HITL Labeler Workbench oferece uma interface WYSIWYG que mapeia entidades de documentos para os rótulos extraídos, o que facilita a comparação e correção. Um documento de instruções é necessário para instruir os rotuladores humanos sobre quais rótulos procurar e adicionar, caso o modelo do Document AI ou os filtros de validação do HITL não os encontrem. Isso inclui:
- Quais rótulos revisar.
- Se algum campo é obrigatório ou opcional.
- Qualquer lógica de negócios para
- Corrija os rótulos (por exemplo, adicione "EUA" para endereços dos Estados Unidos que não especificam o país).
- Rejeite documentos com o campo de rejeição correto,como faturas recusadas > US$ 10.000.
- Nomes de marcadores especiais no documento que são mapeados para marcadores de esquema, para que o marcador possa ser adicionado, como "Cliente #" = "Conta #".
- Eles podem ser configurados como filtros na configuração da tarefa HITL.
Criar boas instruções
Boas instruções são o fator mais importante para conseguir bons resultados de rotulagem humana. Boas instruções são aquelas que informam aos rotuladores humanos o que você quer que eles façam. Confira algumas diretrizes para criar boas instruções:
- Os rotuladores humanos podem não ter conhecimento do seu domínio. As distinções que você pede aos rotuladores precisam ser fáceis de serem compreendidas por alguém não familiarizado com seu caso de uso.
- Evite tornar as instruções muito longas. É bom que um rotulador possa analisá-las e compreendê-las em até 20 minutos.
- As instruções precisam descrever o conceito da tarefa, bem como detalhes sobre como rotular os dados.
- Se as instruções têm um conjunto de rótulos correspondente, elas precisam abranger todos os rótulos nesse conjunto. O nome do rótulo nas instruções precisa corresponder ao nome no conjunto de rótulos.
- Geralmente, são necessárias várias iterações para criar boas instruções. Recomendamos que você rotule um conjunto de dados pequeno primeiro e depois ajuste suas instruções com base no que vê nos resultados recebidos.
Um bom arquivo de instruções precisa incluir as seguintes seções:
- Lista e descrição dos rótulos: liste todos os rótulos usados e descreva o significado de cada um deles.
- Exemplos: para cada rótulo, forneça pelo menos três exemplos positivos e um negativo. Esses exemplos precisam cobrir casos diferentes.
- Cubra os casos extremos. Esclareça o máximo de casos extremos que puder. Isso reduz a necessidade de o rotulador interpretar o rótulo. Por exemplo, se você precisa desenhar uma caixa delimitadora para uma pessoa, é melhor esclarecer os itens abaixo:
- Se houver várias pessoas, você precisará de uma caixa para cada uma delas?
- Se uma pessoa estiver obstruída, você precisará de uma caixa?
- Você precisará de uma caixa para uma pessoa que é mostrada parcialmente na imagem?
- Você precisará de uma caixa para uma pessoa em uma foto ou pintura?
- Descreva como adicionar anotações. Por exemplo:
- Você precisa de uma caixa delimitadora justa ou folgada?
- Para a extração de entidade de texto, onde a entidade interessada começará e terminará?
- Esclarecimento nos rótulos. Se dois rótulos são semelhantes ou fáceis de serem confundidos, ofereça exemplos para esclarecer as diferenças.
Exemplos visuais
O exemplo visual esclarece aos rotuladores onde esperar diferentes entidades no documento e como elas são mapeadas para os rótulos extraídos no esquema. Inclua exemplos visuais nas instruções, como este: