Atualize um processador pré-treinado

Com o analisador de faturas, pode atualizar um processador pré-treinado para melhorar a precisão. Começa com um modelo pré-criado e, em seguida, prepara-o com os seus dados, adicionando campos personalizados. Os formatos de faturas são diversos e a atualização de um analisador de faturas genérico com os seus dados pode melhorar a precisão em formatos específicos e permitir que o analisador extraia campos que não são suportados pelo modelo pré-formado. São fornecidos dados de amostra, mas pode seguir os mesmos procedimentos com os seus próprios dados.


Para seguir orientações passo a passo para esta tarefa diretamente na Google Cloud consola, clique em Orientar-me:

Visita guiada


Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Crie um processador

    1. No Google Cloud menu de navegação da consola, selecione Document AI e selecione Galeria de processadores.

      Processador Galeria

    2. Na galeria de processadores, pesquise analisador de faturas e selecione Criar.

      uptrain-a-legacy-processor-1

    3. Introduza um nome do processador, como invoice-parser-for-uptraining.

    4. Selecione a região mais próxima de si.

    5. Selecione Criar. É apresentado o separador Detalhes do processador.

      uptrain-a-legacy-processor-2

    Crie um contentor do Cloud Storage para o conjunto de dados

    Para preparar este novo processador, tem de criar um conjunto de dados com dados de preparação e de teste para ajudar o processador a identificar as entidades que quer extrair.

    Este conjunto de dados requer um novo contentor do Cloud Storage. Não use o mesmo contentor que aquele onde os seus documentos estão armazenados.

    1. Aceda ao separador Formar do processador.

    2. Selecione Definir localização do conjunto de dados. É-lhe pedido que selecione ou crie um contentor ou uma pasta do Cloud Storage vazios.

      uptrain-a-legacy-processor-3

    3. Selecione Procurar para abrir Selecionar pasta.

    4. Selecione Criar um novo contentor e siga as instruções para criar um novo contentor. Para mais informações sobre como criar um contentor do Cloud Storage, consulte o artigo Contentores do Cloud Storage.

      Nota: um contentor é a entidade de armazenamento de nível superior, na qual pode aninhar pastas. Em alternativa à criação e seleção de um contentor, também pode criar e selecionar uma pasta vazia num contentor existente, se preferir. Consulte as pastas simuladas.

      Depois de criar o contentor, é apresentada a página Selecionar pasta para esse contentor.

    5. Na página Selecionar pasta do seu contentor, selecione Selecionar na parte inferior da caixa de diálogo.

      uptrain-a-legacy-processor-4

    6. Certifique-se de que o caminho de destino está preenchido com o nome do contentor que selecionou. Selecione Criar conjunto de dados. A criação do conjunto de dados pode demorar até vários minutos.

      uptrain-a-legacy-processor-5

    • Proceder diretamente à atualização: avance para a importação de dados pré-etiquetados. Em vez de importar um documento de exemplo, use ferramentas para etiquetar manualmente os campos e adicione o documento aos dados de preparação.

    • Etiquetar e adicionar manualmente documentos ao conjunto de preparação: antes de continuar com a preparação adicional, avance para Importar um documento de exemplo para etiquetagem manual e siga as instruções apresentadas.

    Importe um documento de amostra para etiquetagem manual

    Em seguida, importe um ficheiro PDF de fatura de amostra para o seu conjunto de dados. Etiqueta os campos neste documento para ajudar no processo de atualização subsequente.

    Neste guia, é-lhe fornecido um ficheiro representativo para ser o documento de exemplo.

    1. No separador Formar, selecione Importar documentos.

      uptrain-a-legacy-processor-6

    2. Para este exemplo, introduza este nome do contentor em Caminho de origem. Este link direciona diretamente para um documento.

      cloud-samples-data/documentai/codelabs/uptraining/pdfs
      
    3. Para Divisão de dados, selecione Não atribuído. O documento nesta pasta não está atribuído ao conjunto de testes nem ao conjunto de preparação. Deixe a opção Importar com etiquetagem automática desmarcada.

    4. Selecione Importar. A IA Documentos lê os documentos do contentor para o conjunto de dados. Não modifica o contentor de importação nem lê a partir do contentor após a conclusão da importação.

    Quando importa documentos, pode atribuí-los opcionalmente ao conjunto de Formação ou Teste no momento da importação, ou aguardar para os atribuir mais tarde.

    Se quiser eliminar um ou mais documentos que importou, selecione-os no separador Formar e selecione Eliminar.

    Para mais informações sobre a preparação dos dados para importação, consulte o guia de preparação de dados.

    Defina o esquema do processador

    O seu conjunto de dados pode não conter todas as etiquetas suportadas pelo analisador de faturas. Se for o caso, tem de marcar as etiquetas que não são usadas como Inactive antes de começar a preparação. Também pode adicionar uma ou mais etiquetas personalizadas antes de começar a atualização.

    1. No separador Preparar, selecione Editar esquema na parte inferior esquerda. É aberta a página Gerir etiquetas.

    2. Para desativar etiquetas não usadas, selecione as caixas de verificação para os campos que não estão na lista seguinte e, de seguida, selecione Desativar. Os seguintes campos devem permanecer ativados:

      invoice_date
      line_item
        amount
        description
      receiver_address
      receiver_name
      supplier_address
      supplier_name
      total_amount
      

      Nota: não é possível eliminar etiquetas. Em alternativa, pode desativar qualquer etiqueta que não queira usar.

    3. Selecione Guardar quando as etiquetas estiverem concluídas.

      uptrain-a-legacy-processor-7

    4. Selecione a seta para retroceder para regressar à página Formar.

    Etiquete um documento

    O processo de selecionar texto num documento e aplicar etiquetas é conhecido como anotação.

    1. Regresse ao separador Formar e selecione um documento para abrir a consola de Gestão de etiquetas.

    2. Em seguida, selecione a etiqueta do esquema no painel do lado esquerdo que corresponde ao valor que quer anotar e aplique a etiqueta.

    3. Use a ferramenta Caixa delimitadora por predefinição ou a ferramenta Selecionar texto para valores de várias linhas, para selecionar o conteúdo e aplicar a etiqueta.

      Por exemplo, nesta fatura, o texto "McWilliam Piping International Piping Company" deve ser atribuído à etiqueta supplier_name. Pode usar o filtro de texto para pesquisar nomes de etiquetas.

      Nota: a ferramenta Selecionar texto não funciona para todos os valores de texto, por isso, use a caixa delimitadora, se for adequado. Também pode selecionar campos que não sejam de texto, como caixas de verificação, através da ferramenta Caixa delimitadora.

    4. Reveja os valores de texto detetados para garantir que refletem o texto correto do documento.

      • Quando selecionar texto que corresponda a uma etiqueta, certifique-se de que inclui apenas o texto relevante. Por exemplo, para uma etiqueta invoice_id, não inclua carateres como # que precedem frequentemente o valor numérico. Não inclua símbolos de moeda, como $, para dinheiro.

        • Certifique-se de que anota todas as instâncias de uma entidade. Por exemplo, supplier_name ou invoice_id podem ocorrer várias vezes no documento, e cada instância deve ser anotada.
    5. Repita o procedimento para cada campo que quer etiquetar.

    Segue-se um exemplo do conjunto completo de etiquetas com o texto correspondente.

    Nome da etiqueta Texto
    supplier_name McWilliam Piping International Piping Company
    supplier_address 14368 Pipeline Ave Chino, CA 91710
    invoice_id 10001
    due_date 2020-01-02
    line_item/description Engates de articulação
    line_item/quantity 9
    line_item/unit_price 74,43
    line_item/amount 669,87
    line_item/description Tubo de PVC de 30 cm
    line_item/quantity 7
    line_item/unit_price 15,90
    line_item/amount 111,30
    line_item/description Tubo de cobre
    line_item/quantity 7
    line_item/unit_price 91,20
    line_item/amount 638,40
    net_amount 1419,57
    total_tax_amount 113,57
    total_amount 1533,14
    currency
    1. Selecione Marcar como etiquetado quando terminar de anotar o documento.

      No separador Preparar, o painel do lado esquerdo mostra que 1 documento foi etiquetado.

    Atribua o documento anotado ao conjunto de preparação

    Agora que etiquetou este documento de exemplo, pode atribuí-lo ao conjunto de preparação.

    1. No separador Treinar, selecione a caixa de verificação Selecionar tudo.

    2. Na lista Atribuir ao conjunto, selecione Formação.

    No painel do lado esquerdo, pode ver que 1 documento foi atribuído ao conjunto de dados de treino.

    Importe dados pré-etiquetados para os conjuntos de preparação e de teste

    A preparação adicional da IA Documentos requer um mínimo de 10 documentos nos conjuntos de preparação e de teste, juntamente com 10 instâncias de cada etiqueta em cada conjunto.

    Recomendamos que tenha, pelo menos, 50 documentos em cada conjunto, com 50 instâncias de cada etiqueta, para um melhor desempenho. Geralmente, mais dados de preparação equivalem a uma maior precisão.

    Neste guia, são fornecidos dados pré-etiquetados. Se estiver a trabalhar no seu próprio projeto, tem de determinar como etiquetar os dados. Consulte as Opções de etiquetagem.

    1. Selecione Importar documentos.

    2. Introduza o seguinte caminho em Caminho de origem. Este contentor contém documentos pré-etiquetados no formato JSON de documentos.

      cloud-samples-data/documentai/Custom/Invoices/JSON
      
    3. Na lista Divisão de dados, selecione Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de dados de treino e 20% no conjunto de dados de teste. Deixe a opção Importar com etiquetagem automática desmarcada.

    4. Selecione Importar. A importação pode demorar alguns minutos. Depois, encontra os documentos no separador Formar.

    Opcional: etiquete automaticamente os documentos recém-importados

    Quando importa documentos não etiquetados para um processador com uma versão do processador implementada, pode usar a etiquetagem automática para poupar tempo na etiquetagem.

    1. Na página Formar, importe documentos.

    2. Copie e cole o seguinte caminho do Cloud Storage. Este diretório contém cinco PDFs de faturas sem etiqueta. Na lista pendente Divisão de dados, selecione Preparação.

      cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
      
    3. Na secção Etiquetagem automática, selecione a caixa de verificação Importar com etiquetagem automática.

    4. Selecione uma versão do processador existente para etiquetar os documentos.

      • Por exemplo: pretrained-invoice-v1.3-2022-07-15
    5. Selecione Importar e aguarde que os documentos sejam importados. Pode sair desta página e voltar mais tarde.

      • Quando estiver concluído, os documentos aparecem na página Preparar na secção Etiquetado automaticamente.
    6. Não pode usar documentos etiquetados automaticamente para preparação ou testes sem os marcar como etiquetados. Aceda à secção Etiquetados automaticamente para ver os documentos etiquetados automaticamente.

    7. Selecione o primeiro documento para entrar na consola de etiquetagem.

    8. Verifique a etiqueta para garantir que está correta. Ajuste-o se estiver incorreto.

    9. Quando terminar, selecione Marcar como etiquetado.

    10. Repita a validação de etiquetas para cada documento com etiquetas automáticas e, em seguida, regresse à página Preparar para usar os dados para preparação.

    Prepare o processador

    Agora que importou os dados de preparação e de teste, pode preparar o processador. Uma vez que a preparação pode demorar várias horas, certifique-se de que configurou o processador com os dados e as etiquetas adequados antes de iniciar a preparação.

    1. Selecione Atualizar nova versão.

    2. No campo Nome da versão, introduza um nome para esta versão do processador, como invoice-uptrain-1.

    3. (Opcional) Selecione Ver estatísticas das etiquetas para encontrar informações sobre as etiquetas dos documentos. Isto pode ajudar a determinar a sua cobertura. Selecione Fechar para voltar à configuração da preparação.

    4. Selecione Iniciar preparação Pode verificar o estado no painel do lado direito.

      É apresentada a página Gestão de conjuntos de dados. Pode ver o estado do treino no lado direito. A preparação demora provavelmente algumas horas, consoante o tamanho do seu conjunto de dados. Pode sair desta página e voltar mais tarde.

    Implemente a versão do processador

    1. Após a conclusão da preparação, navegue para o separador Gerir versões. Pode ver detalhes sobre a versão que acabou de preparar.

    2. Selecione os três pontos verticais à direita da versão que quer implementar e selecione Implementar versão.

    3. Selecione Implementar na janela de pop-up.

      A implementação demora alguns minutos a ser concluída.

    Avalie e teste o processador

    1. Após a conclusão da implementação, navegue para o separador Avaliar e testar.

      Nesta página, pode ver as métricas de avaliação, incluindo a pontuação F1, a precisão e a revocação para o documento completo e as etiquetas individuais. Para mais informações sobre a avaliação e as estatísticas, consulte o artigo Avalie o processador.

    2. Transfira um documento que não tenha sido envolvido na preparação ou nos testes anteriores para que o possa usar para avaliar a versão do processador. Se usar os seus próprios dados, usaria um documento reservado para este fim.

      Transferir PDF

    3. Selecione Carregar documento de teste e selecione o documento que acabou de transferir.

      É apresentada a página Análise do analisador de faturas. O resultado no ecrã demonstra o quão bem o documento foi classificado.

      Também pode executar novamente a avaliação com um conjunto de testes ou uma versão do processador diferente.

    Use o processador

    Criou e atualizou com êxito um processador Invoice Parser.

    Pode gerir as versões do processador com preparação personalizada tal como qualquer outra versão do processador, por exemplo, quando migra para um processador mais recente quando um é descontinuado. Para mais informações, consulte o artigo Gerir versões do processador.

    Pode enviar um pedido de processamento ao seu processador personalizado e a resposta pode ser processada da mesma forma que outros processadores de extração de entidades.

    Limpar

    Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.

    Para evitar custos Google Cloud desnecessários, use o Google Cloud console para eliminar o processador e o projeto se não precisar deles.

    Se criou um novo projeto para saber mais sobre a IA Documental e já não precisar do projeto, [elimine-o][delete-project].

    Se usou um Google Cloud projeto existente, elimine os recursos que criou para evitar incorrer em cobranças na sua conta:

    1. No Google Cloud menu de navegação da consola, selecione Document AI e selecione Os meus processadores.

    2. Selecione Mais ações na mesma linha que o processador que quer eliminar.

    3. Selecione Eliminar processador, introduza o nome do processador e, de seguida, selecione Eliminar novamente para confirmar.

    O que se segue?