Extração personalizada

O treinamento e a extração de modelos personalizados permitem que você crie seu próprio modelo projetado especificamente para seus documentos sem o uso de IA generativa. É ideal se você não quiser usar a IA generativa e quiser controlar todos os aspectos do modelo treinado.

Configuração do conjunto de dados

Um conjunto de dados de documentos é necessário para treinar, aprimorar o treinamento ou avaliar uma versão do processador. Os processadores da Document AI aprendem com exemplos, assim como os humanos. O conjunto de dados aumenta a estabilidade do processador em termos de desempenho.

Treinar conjunto de dados

Para melhorar o modelo e a precisão dele, treine um conjunto de dados nos seus documentos. O modelo é formado por documentos com informações empíricas. Você precisa de pelo menos três documentos para treinar um novo modelo.

Conjunto de dados de teste

O conjunto de dados de teste é o que o modelo usa para gerar uma pontuação F1 (precisão). Ele é formado por documentos com informações empíricas. Para saber com que frequência o modelo está certo, as informações empíricas são usadas para comparar as previsões do modelo (campos extraídos do modelo) com as respostas corretas. O conjunto de dados de teste precisa ter pelo menos três documentos.

Antes de começar

Ative o faturamento e a API Document AI, caso ainda não tenha feito isso.

Criar e avaliar um modelo personalizado

Comece criando e avaliando um processador personalizado.

  1. Crie um processador e defina os campos que você quer extrair. Isso é importante porque afeta a qualidade da extração.

  2. Definir o local do conjunto de dados: selecione a pasta de opções padrão Gerenciado pelo Google. Isso pode ser feito automaticamente logo após a criação do processador.

  3. Acesse a guia Build e selecione Import Documents com a rotulagem automática ativada (consulte Rotulagem automática com o modelo básico). Você precisa de pelo menos 10 documentos no conjunto de treinamento e 10 no conjunto de teste para treinar um modelo personalizado.

  4. Treinar o modelo:

    1. Selecione Treinar nova versão e dê um nome à versão do processador.
    2. Acesse Mostrar opções avançadas e selecione a opção Com base no modelo.

    custom-based-extraction-1

  5. Avaliação:

    • Acesse Avaliar e testar, selecione a versão que você acabou de treinar e clique em Ver avaliação completa.

    custom-based-extraction-2

    • Agora você vai encontrar métricas como f1, precisão e recall para todo o documento e cada campo.
    • Avalie se a performance atende às suas metas de produção. Se não, reavalie conjuntos de treinamento e teste, normalmente adicionando documentos ao conjunto de teste de treinamento que não são analisados corretamente.
  6. Definir uma nova versão como padrão.

    1. Navegue até Gerenciar versões.
    2. Acesse o menu e selecione Definir como padrão.

    custom-based-extraction-3

Seu modelo foi implantado, e os documentos enviados para esse processador agora usam sua versão personalizada. Você quer avaliar o desempenho do modelo para verificar se ele precisa de mais treinamento.

Referência de avaliação

O mecanismo de avaliação pode fazer correspondências exatas ou inexactas. Para uma correspondência exata, o valor extraído precisa corresponder exatamente à informação empírica ou será contabilizado como uma falha.

As extrações de correspondência aproximada que tinham pequenas diferenças, como diferenças de maiúsculas e minúsculas, ainda são consideradas uma correspondência. Isso pode ser alterado na tela Avaliação.

custom-based-extraction-4

Rotulagem automática com o modelo de base

O modelo de fundação extrai campos com precisão para diversos tipos de documentos, mas também é possível fornecer mais dados de treinamento para melhorar a acurácia do modelo em estruturas de documentos específicas.

O Document AI usa os nomes dos rótulos que você define e as anotações anteriores para rotular documentos em escala com a rotulagem automática.

  1. Depois de criar um processador personalizado, acesse a guia Começar.
  2. Selecione Criar novo campo.
  3. Informe um nome descritivo e preencha o campo de descrição. A descrição da propriedade permite fornecer mais contexto, insights e conhecimento prévio para cada entidade para melhorar a precisão e o desempenho da extração.

custom-based-extraction-5

  1. Navegue até a guia Criar e selecione Importar documentos.

    custom-based-extraction-6

  2. Selecione o caminho dos documentos e o conjunto em que eles serão importados. Marque a caixa de rotulagem automática e selecione o modelo de fundação.

  3. Na guia Build, selecione Gerenciar conjunto de dados. Os documentos importados vão aparecer. Selecione um dos seus documentos.

    custom-based-extraction-7

Agora você vai ver as previsões do modelo destacadas em roxo.

  1. Analise cada rótulo previsto pelo modelo e verifique se ele está correto. Se houver campos ausentes, adicione-os também.

custom-based-extraction-8

  1. Depois que o documento for analisado, selecione Marcar como rotulado. O documento está pronto para ser usado pelo modelo. Verifique se o documento está no conjunto de testes ou treinamento.