Visão geral do extrator personalizado

O extrator personalizado extrai entidades de documentos de um tipo específico. Por exemplo, ele pode extrair os itens de um menu ou o nome e dados de contato de um currículo.

Visão geral

O objetivo do extrator personalizado é permitir que os usuários da Document AI criem soluções personalizadas de extração de entidades para novos tipos de documento para os quais não há processadores pré-treinados disponíveis. O extrator personalizado inclui uma combinação de modelos de aprendizado profundo que consideram o layout (para IA generativa e modelos personalizados) e modelos baseados em modelos.

Qual método de treinamento devo usar?

O extrator personalizado oferece suporte a uma ampla variedade de casos de uso com três modos diferentes.

Método de treinamento Exemplos de documentos Variação do layout do documento Texto ou parágrafos livres Número de documentos de treinamento com qualidade para produção, dependendo da variabilidade
Ajustar e definir o modelo de base (IA generativa). Contrato, termos de serviço, fatura, extrato bancário, conhecimento de embarque, comprovantes de pagamento. De alta para baixa (preferencial). alto. Médio: 0 a 50 documentos.
Modelo personalizado. Modelo. Formulários semelhantes com variação de layout ao longo dos anos ou dos fornecedores (por exemplo, W9). Baixa a média. Baixo. Alta: de 10 a 100 documentos.
Modelo. Formulários fiscais com um layout fixo (por exemplo, os formulários 941 e 709). Nenhuma. Baixo. Baixo (3 documentos).

Como os modelos de base geralmente exigem menos documentos de treinamento, eles são recomendados como a primeira opção para todos os layouts de variáveis.

Pontuação de confiança

A pontuação de confiança informa o quanto o modelo associa cada entidade ao valor previsto. O valor fica entre zero e um. Quanto mais próximo de um, maior a confiança do modelo de que o valor corresponde à entidade. Isso permite que os usuários definam acionadores para a revisão manual de entidades individuais quando o valor é baixo. Por exemplo, determinar se o texto em uma entidade é "Hello, world!" ou "HeIIo vvorld!"

Os benefícios dessa abordagem permitem detectar entidades individuais com baixa confiança, definir limites para as previsões usadas, selecionar o limite de confiança ideal e desenvolver novas estratégias para treinar modelos com maior precisão e pontuações de confiança.

Para mais informações sobre conceitos e métricas de avaliação, consulte Avaliar o desempenho.