Extração personalizada
O treinamento e a extração de modelos personalizados permitem que você crie seu próprio modelo projetado especificamente para seus documentos sem o uso de IA generativa. É ideal se você não quiser usar a IA generativa e quiser controlar todos os aspectos do modelo treinado.
Configuração do conjunto de dados
Um conjunto de dados de documentos é necessário para treinar, aprimorar o treinamento ou avaliar uma versão do processador. Os processadores da Document AI aprendem com exemplos, assim como os humanos. O conjunto de dados aumenta a estabilidade do processador em termos de desempenho.Treinar conjunto de dados
Para melhorar o modelo e a precisão dele, treine um conjunto de dados nos seus documentos. O modelo é formado por documentos com informações empíricas. Você precisa de pelo menos três documentos para treinar um novo modelo.Conjunto de dados de teste
O conjunto de dados de teste é o que o modelo usa para gerar uma pontuação F1 (precisão). Ele é formado por documentos com informações empíricas. Para saber com que frequência o modelo está certo, as informações empíricas são usadas para comparar as previsões do modelo (campos extraídos do modelo) com as respostas corretas. O conjunto de dados de teste precisa ter pelo menos três documentos.Antes de começar
Ative o faturamento e a API Document AI, caso ainda não tenha feito isso.
Criar e avaliar um modelo personalizado
Comece criando e avaliando um processador personalizado.
Crie um processador e defina os campos que você quer extrair. Isso é importante porque afeta a qualidade da extração.
Definir o local do conjunto de dados: selecione a pasta de opções padrão Gerenciado pelo Google. Isso pode ser feito automaticamente logo após a criação do processador.
Acesse a guia Build e selecione Import Documents com a rotulagem automática ativada (consulte Rotulagem automática com o modelo básico). Você precisa de pelo menos 10 documentos no conjunto de treinamento e 10 no conjunto de teste para treinar um modelo personalizado.
Treinar o modelo:
- Selecione Treinar nova versão e dê um nome à versão do processador.
- Acesse Mostrar opções avançadas e selecione a opção Com base no modelo.
Avaliação:
- Acesse Avaliar e testar, selecione a versão que você acabou de treinar e clique em Ver avaliação completa.
- Agora você vai encontrar métricas como f1, precisão e recall para todo o documento e cada campo.
- Avalie se a performance atende às suas metas de produção. Se não, reavalie conjuntos de treinamento e teste, normalmente adicionando documentos ao conjunto de teste de treinamento que não são analisados corretamente.
Definir uma nova versão como padrão.
- Navegue até Gerenciar versões.
- Acesse o menu e selecione Definir como padrão.
Seu modelo foi implantado, e os documentos enviados para esse processador agora usam sua versão personalizada. Você quer avaliar o desempenho do modelo para verificar se ele precisa de mais treinamento.
Referência de avaliação
O mecanismo de avaliação pode fazer correspondências exatas ou inexactas. Para uma correspondência exata, o valor extraído precisa corresponder exatamente à informação empírica ou será contabilizado como uma falha.
As extrações de correspondência aproximada que tinham pequenas diferenças, como diferenças de maiúsculas e minúsculas, ainda são consideradas uma correspondência. Isso pode ser alterado na tela Avaliação.
Rotulagem automática com o modelo de base
O modelo de fundação extrai campos com precisão para diversos tipos de documentos, mas também é possível fornecer mais dados de treinamento para melhorar a acurácia do modelo em estruturas de documentos específicas.
O Document AI usa os nomes dos rótulos que você define e as anotações anteriores para rotular documentos em escala com a rotulagem automática.
- Depois de criar um processador personalizado, acesse a guia Começar.
- Selecione Criar novo campo.
- Informe um nome descritivo e preencha o campo de descrição. A descrição da propriedade permite fornecer mais contexto, insights e conhecimento prévio para cada entidade para melhorar a precisão e o desempenho da extração.
Navegue até a guia Criar e selecione Importar documentos.
Selecione o caminho dos documentos e o conjunto em que eles serão importados. Marque a caixa de rotulagem automática e selecione o modelo de fundação.
Na guia Build, selecione Gerenciar conjunto de dados. Os documentos importados vão aparecer. Selecione um dos seus documentos.
Agora você vai ver as previsões do modelo destacadas em roxo.
- Analise cada rótulo previsto pelo modelo e verifique se ele está correto. Se houver campos ausentes, adicione-os também.
- Depois que o documento for analisado, selecione Marcar como rotulado. O documento está pronto para ser usado pelo modelo. Verifique se o documento está no conjunto de testes ou treinamento.