Visão geral do extrator personalizado
O extrator personalizado extrai entidades de documentos de um tipo específico. Por exemplo, ele pode extrair os itens de um menu ou o nome e dados de contato de um currículo.
Visão geral
O objetivo do extrator personalizado é permitir que os usuários da Document AI criem soluções personalizadas de extração de entidades para novos tipos de documento para os quais não há processadores pré-treinados disponíveis. O extrator personalizado inclui uma combinação de modelos de aprendizado profundo que consideram o layout (para IA generativa e modelos personalizados) e modelos baseados em modelos.
Qual método de treinamento devo usar?
O extrator personalizado oferece suporte a uma ampla variedade de casos de uso com três modos diferentes.
Método de treinamento | Exemplos de documentos | Variação do layout do documento | Texto ou parágrafos livres | Número de documentos de treinamento com qualidade para produção, dependendo da variabilidade | |
---|---|---|---|---|---|
Ajustar e definir o modelo de base (IA generativa). | Contrato, termos de serviço, fatura, extrato bancário, conhecimento de embarque, comprovantes de pagamento. | De alta para baixa (preferencial). | alto. | Médio: 0 a 50 documentos. | |
Modelo personalizado. | Modelo. | Formulários semelhantes com variação de layout ao longo dos anos ou dos fornecedores (por exemplo, W9). | Baixa a média. | Baixo. | Alta: de 10 a 100 documentos. |
Modelo. | Formulários fiscais com um layout fixo (por exemplo, os formulários 941 e 709). | Nenhuma. | Baixo. | Baixo (3 documentos). |
Como os modelos de base geralmente exigem menos documentos de treinamento, eles são recomendados como a primeira opção para todos os layouts de variáveis.
Pontuação de confiança
A pontuação de confiança informa o quanto o modelo associa cada entidade ao valor previsto. O valor fica entre zero e um. Quanto mais próximo de um, maior a confiança do modelo de que o valor corresponde à entidade. Isso permite que os usuários definam acionadores para a revisão manual de entidades individuais quando o valor é baixo. Por exemplo, determinar se o texto em uma entidade é "Hello, world!" ou "HeIIo vvorld!"
Os benefícios dessa abordagem permitem detectar entidades individuais com baixa confiança, definir limites para as previsões usadas, selecionar o limite de confiança ideal e desenvolver novas estratégias para treinar modelos com maior precisão e pontuações de confiança.
Para mais informações sobre conceitos e métricas de avaliação, consulte Avaliar o desempenho.