Embora a bancada de trabalho do etiquetador de HITL forneça uma interface WYSIWYG (What You See Is What You Get) que mapeia as entidades de documentos para as etiquetas extraídas, o que facilita a comparação e a correção por parte do etiquetador. É necessário um documento de instruções para indicar aos etiquetadores humanos que etiquetas devem procurar e adicionar, e caso o modelo de IA Documentos ou os filtros de validação de HITL não as detetem. Isto inclui:
- Que etiquetas rever.
- Se algum campo é obrigatório ou opcional.
- Qualquer lógica de negócio para
- Etiquetas corretas (como adicionar "EUA" para endereços dos Estados Unidos que não especificam EUA).
- Rejeite documentos com o campo de rejeição correto,como rejeitar faturas superiores a 10 000 €.
- Nomes de etiquetas especiais no documento que são mapeados para etiquetas de esquema, para que o etiquetador possa adicioná-los, como "Cliente n.º" = "Conta n.º".
- Estes podem ser configurados como filtros na configuração da tarefa HITL.
Crie boas instruções
As boas instruções são o fator mais importante para obter bons resultados de etiquetagem humana. As boas instruções são aquelas que permitem que os etiquetadores humanos saibam o que quer que façam. Seguem-se algumas diretrizes para criar boas instruções:
- Os etiquetadores humanos podem não ter os seus conhecimentos do domínio. As distinções que pede aos etiquetadores para fazerem têm de ser fáceis de compreender para alguém que não esteja familiarizado com o seu exemplo de utilização.
- Evite que as instruções sejam demasiado longas. É melhor se um etiquetador puder revê-las e compreendê-las no prazo de 20 minutos.
- As instruções têm de descrever o conceito da tarefa, bem como detalhes sobre como etiquetar os dados.
- Se as suas instruções tiverem um conjunto de etiquetas correspondente, têm de abranger todas as etiquetas nesse conjunto. O nome da etiqueta nas instruções tem de corresponder ao nome no conjunto de etiquetas.
- Geralmente, são necessárias várias iterações para criar boas instruções. Recomendamos que comece por ter um pequeno conjunto de dados etiquetado e, em seguida, ajuste as instruções com base no que vê nos resultados que recebe.
Um bom ficheiro de instruções tem de incluir as seguintes secções:
- Lista e descrição das etiquetas: liste todas as etiquetas usadas e descreva o significado de cada etiqueta.
- Exemplos: para cada etiqueta, dê, pelo menos, três exemplos positivos e um exemplo negativo. Estes exemplos têm de abranger casos diferentes.
- Abranger casos extremos. Esclareça o maior número possível de casos extremos. Isto reduz a necessidade de o etiquetador interpretar a etiqueta. Por exemplo, se precisar de desenhar uma caixa delimitadora para uma pessoa, é melhor esclarecer:
- Se existirem várias pessoas, precisa de uma caixa para cada pessoa?
- Se uma pessoa estiver ocluída, precisa de uma caixa?
- Precisa de uma caixa para uma pessoa que aparece parcialmente na imagem?
- Precisa de uma caixa para uma pessoa numa imagem ou pintura?
- Descreva como adicionar anotações. Por exemplo:
- Para uma caixa delimitadora, precisa de uma caixa apertada ou solta?
- Para a extração de entidades de texto, onde deve começar e terminar a entidade interessada?
- Esclarecimento sobre as etiquetas. Se duas etiquetas forem semelhantes ou fáceis de confundir, dê exemplos para esclarecer as diferenças.
Exemplos visuais
O exemplo visual fornece esclarecimentos aos etiquetadores sobre onde esperar diferentes entidades no documento e como estas são mapeadas para as etiquetas extraídas no esquema. Inclua exemplos visuais nas suas instruções, como os seguintes: