Como criar instruções para revisão de HITL

O HITL Labeler Workbench oferece uma interface WYSIWYG (o que você vê é o que você recebe) que mapeia entidades de documentos para os rótulos extraídos, facilitando a comparação e a correção pelo rotulador. Um documento de instruções é necessário para orientar os rotuladores humanos sobre quais rótulos procurar e adicionar, caso o modelo da Document AI ou os filtros de validação do HITL não os encontrem. Isso inclui:

  • Quais rótulos revisar.
  • Se algum campo é obrigatório ou opcional.
  • Qualquer lógica de negócios para
    • Rótulos corretos (por exemplo, adicione "EUA" para endereços dos Estados Unidos que não especificam o país).
    • Rejeite documentos com o campo de rejeição correto,como "rejeitar faturas >$10.000".
  • Nomes especiais de rótulos no documento que são mapeados para rótulos de esquema. Assim, o rotulador pode adicionar esses nomes, como "Cliente nº" = "Conta nº".
  • Eles podem ser configurados como filtros na configuração da tarefa HITL.

Criar boas instruções

Boas instruções são o fator mais importante para conseguir bons resultados de rotulagem humana. Boas instruções são aquelas que informam aos rotuladores humanos o que você quer que eles façam. Aqui estão algumas diretrizes para criar boas instruções:

  • Os rotuladores humanos podem não ter conhecimento do seu domínio. As distinções que você pede aos rotuladores precisam ser fáceis de serem compreendidas por alguém não familiarizado com seu caso de uso.
  • Evite tornar as instruções muito longas. É bom que um rotulador possa analisá-las e compreendê-las em até 20 minutos.
  • As instruções precisam descrever o conceito da tarefa, bem como detalhes sobre como rotular os dados.
  • Se as instruções têm um conjunto de rótulos correspondente, elas precisam abranger todos os rótulos nesse conjunto. O nome do rótulo nas instruções precisa corresponder ao nome no conjunto de rótulos.
  • Geralmente, são necessárias várias iterações para criar boas instruções. Recomendamos que você rotule um conjunto de dados pequeno primeiro e depois ajuste suas instruções com base no que vê nos resultados recebidos.

Um bom arquivo de instruções precisa incluir as seções a seguir:

  • Lista de rótulos e descrição: liste todos os rótulos usados e descreva o significado de cada um deles.
  • Exemplos: para cada rótulo, forneça pelo menos três exemplos positivos e um negativo. Esses exemplos precisam cobrir casos diferentes.
  • Cubra os casos extremos. Esclareça o máximo de casos extremos que puder. Isso reduz a necessidade de o rotulador interpretar o rótulo. Por exemplo, se você precisa desenhar uma caixa delimitadora para uma pessoa, é melhor esclarecer os itens abaixo:
    • Se houver várias pessoas, você precisará de uma caixa para cada uma delas?
    • Se uma pessoa estiver obstruída, você precisará de uma caixa?
    • Você precisará de uma caixa para uma pessoa que é mostrada parcialmente na imagem?
    • Você precisará de uma caixa para uma pessoa em uma foto ou pintura?
  • Descreva como adicionar anotações. Por exemplo:
    • Você precisa de uma caixa delimitadora justa ou folgada?
    • Para a extração de entidade de texto, onde a entidade interessada começará e terminará?
  • Esclarecimento nos rótulos. Se dois rótulos são semelhantes ou fáceis de serem confundidos, ofereça exemplos para esclarecer as diferenças.

Exemplos visuais

O exemplo visual esclarece aos rotuladores onde esperar diferentes entidades no documento e como elas são mapeadas para os rótulos extraídos no esquema. Inclua exemplos visuais nas instruções, como:

example-instruction