Extração baseada em modelo

É possível treinar um modelo de alto desempenho com apenas três documentos de treinamento e três de teste para casos de uso de layout fixo. Acelere o desenvolvimento e reduza o tempo de produção de tipos de documentos com modelos, como W9, 1040, ACORD, pesquisas e questionários.

Configuração do conjunto de dados

Um conjunto de dados de documentos é necessário para treinar, aprimorar o treinamento ou avaliar uma versão do processador. Os processadores da Document AI aprendem com exemplos, assim como os humanos. O conjunto de dados aumenta a estabilidade do processador em termos de desempenho.

Treinar conjunto de dados

Para melhorar o modelo e a precisão dele, treine um conjunto de dados nos seus documentos. O modelo é formado por documentos com informações empíricas. Você precisa de pelo menos três documentos para treinar um novo modelo.

Conjunto de dados de teste

O conjunto de dados de teste é o que o modelo usa para gerar uma pontuação F1 (precisão). Ele é formado por documentos com informações empíricas. Para saber com que frequência o modelo está certo, as informações empíricas são usadas para comparar as previsões do modelo (campos extraídos do modelo) com as respostas corretas. O conjunto de dados de teste precisa ter pelo menos três documentos.

Antes de começar

Se ainda não tiver feito isso, ative:

Práticas recomendadas de rotulagem no modo de modelo

A rotulagem adequada é uma das etapas mais importantes para alcançar alta precisão. O modo de modelo tem uma metodologia de rotulagem exclusiva que difere dos outros modos de treinamento:

  • Desenhe caixas delimitadoras em torno de toda a área em que você espera que os dados estejam (por rótulo) em um documento, mesmo que o rótulo esteja vazio no documento de treinamento que você está marcando.
  • Você pode rotular campos vazios para o treinamento baseado em modelos. Não rotule campos vazios para treinamento baseado em modelo.

Criar e avaliar um extrator personalizado com o modo de modelo

  1. Crie um extrator personalizado. Crie um processador e defina os campos que você quer extrair seguindo as práticas recomendadas, o que é importante porque afeta a qualidade da extração.

  2. Defina o local do conjunto de dados. Selecione a pasta de opções padrão (gerenciada pelo Google). Isso pode ser feito automaticamente logo após a criação do processador.

  3. Acesse a guia Build e selecione Import documents com a rotulagem automática ativada. Adicionar mais documentos do que o mínimo de três necessários geralmente não melhora a qualidade do treinamento baseado em modelo. Em vez de adicionar mais, concentre-se em rotular um conjunto pequeno com muita precisão.

  4. Estender caixas delimitadoras. Essas caixas para o modo de modelo devem ter a mesma aparência dos exemplos anteriores. Estenda as caixas delimitadoras, seguindo as práticas recomendadas para o resultado ideal.

  5. Treinar o modelo.

    1. Selecione Treinar nova versão.
    2. Nomeie a versão do processador.
    3. Acesse Mostrar opções avançadas e selecione a abordagem de modelo baseada em modelo.

    template-based-extraction-3

  6. Avaliação.

    1. Acesse Avaliar e testar.
    2. Selecione a versão que você acabou de treinar e clique em Ver avaliação completa.

    template-based-extraction-4

    Agora você vai encontrar métricas como F1, precisão e recall para o documento inteiro e cada campo. 1. Decida se a performance atende às suas metas de produção. Se não, reavalie os conjuntos de treinamento e teste.

  7. Definir uma nova versão como padrão.

    1. Navegue até Gerenciar versões.
    2. Selecione para acessar o menu de configurações e marque Definir como padrão.

    template-based-extraction-5

    Seu modelo agora está implantado, e os documentos enviados a esse processador usam sua versão personalizada. Você quer avaliar o desempenho do modelo (mais detalhes sobre como fazer isso) para verificar se ele precisa de mais treinamento.

Referência de avaliação

O mecanismo de avaliação pode fazer correspondências exatas ou inexactas. Para uma correspondência exata, o valor extraído precisa corresponder exatamente à informação empírica ou será contabilizado como uma falha.

As extrações de correspondência aproximada que tinham pequenas diferenças, como diferenças de maiúsculas e minúsculas, ainda são consideradas uma correspondência. Isso pode ser alterado na tela Avaliação.

template-based-extraction-6

Rotulagem automática com o modelo de base

O modelo de fundação extrai campos com precisão para diversos tipos de documentos, mas também é possível fornecer mais dados de treinamento para melhorar a acurácia do modelo em estruturas de documentos específicas.

O Document AI usa os nomes dos rótulos que você define e as anotações anteriores para facilitar e agilizar a identificação de documentos em grande escala com a rotulagem automática.

  1. Depois de criar um processador personalizado, acesse a guia Começar.
  2. Selecione Criar novo campo.

    template-based-extraction-7

  3. Navegue até a guia Build e selecione Import documents.

    template-based-extraction-8

  4. Selecione o caminho dos documentos e o conjunto em que eles serão importados. Marque a caixa de seleção "Rotulagem automática" e selecione o modelo de fundação.

  5. Na guia Build, selecione Gerenciar conjunto de dados. Os documentos importados vão aparecer. Selecione um dos seus documentos.

    template-based-extraction-9

  6. As previsões do modelo aparecem em roxo. Você precisa analisar cada rótulo previsto pelo modelo e garantir que ele esteja correto. Se houver campos ausentes, adicione-os também.

    template-based-extraction-10

  7. Depois que o documento for analisado, selecione Marcar como rotulado.

  8. O documento está pronto para ser usado pelo modelo. Verifique se o documento está no conjunto de teste ou de treinamento.