Extração personalizada

Com o treinamento e a extração de modelos personalizados, é possível criar seu próprio modelo projetado especificamente para seus documentos sem usar a IA generativa. É ideal se você não quiser usar a IA generativa e quiser controlar todos os aspectos do modelo treinado.

Configuração do conjunto de dados

Um conjunto de dados de documentos é necessário para treinar, aprimorar o treinamento ou avaliar uma versão do processador. Os processadores da Document AI aprendem com exemplos, assim como os humanos. O conjunto de dados alimenta a estabilidade do processador em termos de desempenho.

Conjunto de dados de treinamento

Para melhorar o modelo e a acurácia dele, treine um conjunto de dados nos seus documentos. O modelo é composto de documentos com informações empíricas. Você precisa de pelo menos três documentos para treinar um novo modelo.

Conjunto de dados de teste

O conjunto de dados de teste é o que o modelo usa para gerar uma pontuação F1 (acurácia). Ele é composto por documentos com informações empíricas. Para saber com que frequência o modelo está certo, as informações empíricas são usadas para comparar as previsões do modelo (campos extraídos do modelo) com as respostas corretas. O conjunto de dados de teste precisa ter pelo menos três documentos.

Antes de começar

Se ainda não tiver feito isso, ative o faturamento e a API Document AI.

Criar e avaliar um modelo personalizado

Comece criando e avaliando um processador personalizado.

  1. Crie um processador e defina os campos que você quer extrair. Isso é importante porque afeta a qualidade da extração.

  2. Defina o local do conjunto de dados: selecione a pasta de opção padrão Gerenciado pelo Google. Isso pode ser feito automaticamente logo após a criação do processador.

  3. Acesse a guia Build e selecione Importar documentos com a rotulagem automática ativada (consulte Rotulagem automática com o modelo básico). É necessário ter no mínimo 10 documentos no conjunto de treinamento e 10 no conjunto de teste para treinar um modelo personalizado.

  4. Treinar modelo:

    1. Selecione Treinar nova versão e nomeie a versão do processador.
    2. Acesse Mostrar opções avançadas e selecione a opção Baseado em modelo.

    custom-based-extraction-1

  5. Avaliação:

    • Acesse Avaliar e testar, selecione a versão que você acabou de treinar e clique em Ver avaliação completa.

    custom-based-extraction-2

    • Agora você vê métricas como f1, precisão e recall para todo o documento e cada campo.
    • Decida se a performance atende às suas metas de produção. Se não atender, reavalie os conjuntos de treinamento e teste, geralmente adicionando documentos ao conjunto de teste de treinamento que não são analisados corretamente.
  6. Defina uma nova versão como padrão.

    1. Acesse Gerenciar versões.
    2. Navegue até o menu e selecione Definir como padrão.

    custom-based-extraction-3

O modelo foi implantado, e os documentos enviados a esse processador agora usam sua versão personalizada. Você quer avaliar o desempenho do modelo para verificar se ele precisa de mais treinamento.

Referência de avaliação

O mecanismo de avaliação pode fazer correspondência exata ou aproximada. Para uma correspondência exata, o valor extraído precisa corresponder exatamente à verdade fundamental ou é contado como uma falha.

As extrações de correspondência aproximada que tinham pequenas diferenças, como o uso de maiúsculas e minúsculas, ainda são consideradas uma correspondência. Isso pode ser mudado na tela Avaliação.

custom-based-extraction-4

Identificação automática com o modelo de fundação

O modelo de fundação extrai campos com precisão para diversos tipos de documentos, mas também é possível fornecer mais dados de treinamento para melhorar a acurácia do modelo em estruturas de documentos específicas.

A Document AI usa os nomes de rótulo que você define e as anotações anteriores para rotular documentos em grande escala com a rotulagem automática.

  1. Depois de criar um processador personalizado, acesse a guia Começar.
  2. Selecione Criar novo campo.
  3. Dê um nome descritivo e preencha o campo de descrição. A descrição da propriedade permite fornecer mais contexto, insights e conhecimento prévio para cada entidade para melhorar a acurácia e o desempenho da extração.

custom-based-extraction-5

  1. Acesse a guia Build e selecione Importar documentos.

    custom-based-extraction-6

  2. Selecione o caminho dos documentos e em qual conjunto eles serão importados. Marque a caixa de rotulagem automática e selecione o modelo de fundação.

  3. Na guia Build, selecione Gerenciar conjunto de dados. Os documentos importados vão aparecer. Selecione um dos seus documentos.

    custom-based-extraction-7

Agora as previsões do modelo aparecem destacadas em roxo.

  1. Revise cada rótulo previsto pelo modelo e verifique se está correto. Se houver campos ausentes, adicione-os também.

custom-based-extraction-8

  1. Depois que o documento for revisado, selecione Marcar como rotulado. O documento está pronto para ser usado pelo modelo. Verifique se o documento está no conjunto de Teste ou Treinamento.