Atualize um processador pré-treinado
Com o analisador de faturas, pode atualizar um processador pré-treinado para melhorar a precisão. Começa com um modelo pré-criado e, em seguida, prepara-o com os seus dados, adicionando campos personalizados. Os formatos de faturas são diversos e a atualização de um analisador de faturas genérico com os seus dados pode melhorar a precisão em formatos específicos e permitir que o analisador extraia campos que não são suportados pelo modelo pré-formado. São fornecidos dados de amostra, mas pode seguir os mesmos procedimentos com os seus próprios dados.
Para seguir orientações passo a passo para esta tarefa diretamente na Google Cloud consola, clique em Orientar-me:
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. No Google Cloud menu de navegação da consola, selecione Document AI e selecione Galeria de processadores.
Na galeria de processadores,
pesquise analisador de faturas e selecione Criar.Introduza um nome do processador, como
invoice-parser-for-uptraining
.Selecione a região mais próxima de si.
Selecione Criar. É apresentado o separador Detalhes do processador.
Aceda ao separador
Formar do processador.Selecione
Definir localização do conjunto de dados . É-lhe pedido que selecione ou crie um contentor ou uma pasta do Cloud Storage vazios.Selecione
Procurar para abrir Selecionar pasta.Selecione
Criar um novo contentor e siga as instruções para criar um novo contentor. Para mais informações sobre como criar um contentor do Cloud Storage, consulte o artigo Contentores do Cloud Storage.Nota: um contentor é a entidade de armazenamento de nível superior, na qual pode aninhar pastas. Em alternativa à criação e seleção de um contentor, também pode criar e selecionar uma pasta vazia num contentor existente, se preferir. Consulte as pastas simuladas.
Depois de criar o contentor, é apresentada a página Selecionar pasta para esse contentor.
Na página Selecionar pasta do seu contentor, selecione
Selecionar na parte inferior da caixa de diálogo.Certifique-se de que o caminho de destino está preenchido com o nome do contentor que selecionou. Selecione
Criar conjunto de dados . A criação do conjunto de dados pode demorar até vários minutos.Proceder diretamente à atualização: avance para a importação de dados pré-etiquetados. Em vez de importar um documento de exemplo, use ferramentas para etiquetar manualmente os campos e adicione o documento aos dados de preparação.
Etiquetar e adicionar manualmente documentos ao conjunto de preparação: antes de continuar com a preparação adicional, avance para Importar um documento de exemplo para etiquetagem manual e siga as instruções apresentadas.
No separador Formar, selecione
Importar documentos .Para este exemplo, introduza este nome do contentor em
Caminho de origem . Este link direciona diretamente para um documento.cloud-samples-data/documentai/codelabs/uptraining/pdfs
Para Divisão de dados, selecione Não atribuído. O documento nesta pasta não está atribuído ao conjunto de testes nem ao conjunto de preparação. Deixe a opção Importar com etiquetagem automática desmarcada.
Selecione Importar. A IA Documentos lê os documentos do contentor para o conjunto de dados. Não modifica o contentor de importação nem lê a partir do contentor após a conclusão da importação.
No separador Preparar, selecione
Editar esquema na parte inferior esquerda. É aberta a página Gerir etiquetas.Para desativar etiquetas não usadas, selecione as
caixas de verificação para os campos que não estão na lista seguinte e, de seguida, selecione Desativar. Os seguintes campos devem permanecer ativados:invoice_date line_item amount description receiver_address receiver_name supplier_address supplier_name total_amount
Nota: não é possível eliminar etiquetas. Em alternativa, pode desativar qualquer etiqueta que não queira usar.
Selecione
Guardar quando as etiquetas estiverem concluídas.Selecione a
seta para retroceder para regressar à página Formar.Regresse ao separador Formar e selecione
um documento para abrir a consola de Gestão de etiquetas.Em seguida, selecione a etiqueta do esquema no painel do lado esquerdo que corresponde ao valor que quer anotar e aplique a etiqueta.
Use a ferramenta
Caixa delimitadora por predefinição ou a ferramentaSelecionar texto para valores de várias linhas, para selecionar o conteúdo e aplicar a etiqueta.Por exemplo, nesta fatura, o texto "McWilliam Piping International Piping Company" deve ser atribuído à etiqueta
supplier_name
. Pode usar o filtro de texto para pesquisar nomes de etiquetas.Nota: a ferramenta Selecionar texto não funciona para todos os valores de texto, por isso, use a caixa delimitadora, se for adequado. Também pode selecionar campos que não sejam de texto, como caixas de verificação, através da ferramenta Caixa delimitadora.
Reveja os valores de texto detetados para garantir que refletem o texto correto do documento.
Quando selecionar texto que corresponda a uma etiqueta, certifique-se de que inclui apenas o texto relevante. Por exemplo, para uma etiqueta
invoice_id
, não inclua carateres como#
que precedem frequentemente o valor numérico. Não inclua símbolos de moeda, como$
, para dinheiro.- Certifique-se de que anota todas as instâncias de uma entidade. Por exemplo,
supplier_name
ouinvoice_id
podem ocorrer várias vezes no documento, e cada instância deve ser anotada.
- Certifique-se de que anota todas as instâncias de uma entidade. Por exemplo,
Repita o procedimento para cada campo que quer etiquetar.
Selecione
Marcar como etiquetado quando terminar de anotar o documento.No separador Preparar, o painel do lado esquerdo mostra que 1 documento foi etiquetado.
No separador Treinar, selecione a caixa de verificação
Selecionar tudo .Na lista
Atribuir ao conjunto , selecione Formação.Selecione
Importar documentos .Introduza o seguinte caminho em
Caminho de origem . Este contentor contém documentos pré-etiquetados no formato JSON de documentos.cloud-samples-data/documentai/Custom/Invoices/JSON
Na lista Divisão de dados, selecione Divisão automática. Isto divide automaticamente os documentos para ter 80% no conjunto de dados de treino e 20% no conjunto de dados de teste. Deixe a opção Importar com etiquetagem automática desmarcada.
Selecione Importar. A importação pode demorar alguns minutos. Depois, encontra os documentos no separador Formar.
Na página Formar,
importe documentos .Copie e cole o seguinte caminho do Cloud Storage. Este diretório contém cinco PDFs de faturas sem etiqueta. Na lista pendente Divisão de dados, selecione Preparação.
cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
Na secção Etiquetagem automática, selecione a caixa de verificação
Importar com etiquetagem automática .Selecione uma versão do processador existente para etiquetar os documentos.
- Por exemplo:
pretrained-invoice-v1.3-2022-07-15
- Por exemplo:
Selecione Importar e aguarde que os documentos sejam importados. Pode sair desta página e voltar mais tarde.
- Quando estiver concluído, os documentos aparecem na página Preparar na secção Etiquetado automaticamente.
Não pode usar documentos etiquetados automaticamente para preparação ou testes sem os marcar como etiquetados. Aceda à secção
Etiquetados automaticamente para ver os documentos etiquetados automaticamente.Selecione o primeiro documento para entrar na consola de etiquetagem.
Verifique a etiqueta para garantir que está correta. Ajuste-o se estiver incorreto.
Quando terminar, selecione
Marcar como etiquetado .Repita a validação de etiquetas para cada documento com etiquetas automáticas e, em seguida, regresse à página Preparar para usar os dados para preparação.
Selecione
Atualizar nova versão .No campo
Nome da versão , introduza um nome para esta versão do processador, comoinvoice-uptrain-1
.(Opcional) Selecione Ver estatísticas das etiquetas para encontrar informações sobre as etiquetas dos documentos. Isto pode ajudar a determinar a sua cobertura. Selecione Fechar para voltar à configuração da preparação.
Selecione
Iniciar preparação Pode verificar o estado no painel do lado direito.É apresentada a página Gestão de conjuntos de dados. Pode ver o estado do treino no lado direito. A preparação demora provavelmente algumas horas, consoante o tamanho do seu conjunto de dados. Pode sair desta página e voltar mais tarde.
Após a conclusão da preparação, navegue para o separador
Gerir versões . Pode ver detalhes sobre a versão que acabou de preparar.Selecione os
três pontos verticais à direita da versão que quer implementar e selecione Implementar versão.Selecione
Implementar na janela de pop-up.A implementação demora alguns minutos a ser concluída.
Após a conclusão da implementação, navegue para o separador
Avaliar e testar .Nesta página, pode ver as métricas de avaliação, incluindo a pontuação F1, a precisão e a revocação para o documento completo e as etiquetas individuais. Para mais informações sobre a avaliação e as estatísticas, consulte o artigo Avalie o processador.
Transfira um documento que não tenha sido envolvido na preparação ou nos testes anteriores para que o possa usar para avaliar a versão do processador. Se usar os seus próprios dados, usaria um documento reservado para este fim.
Selecione
Carregar documento de teste e selecione o documento que acabou de transferir.É apresentada a página Análise do analisador de faturas. O resultado no ecrã demonstra o quão bem o documento foi classificado.
Também pode executar novamente a avaliação com um conjunto de testes ou uma versão do processador diferente.
No Google Cloud menu de navegação da consola, selecione Document AI e selecione Os meus processadores.
Selecione
Mais ações na mesma linha que o processador que quer eliminar.Selecione Eliminar processador, introduza o nome do processador e, de seguida, selecione Eliminar novamente para confirmar.
Crie um processador
Crie um contentor do Cloud Storage para o conjunto de dados
Para preparar este novo processador, tem de criar um conjunto de dados com dados de preparação e de teste para ajudar o processador a identificar as entidades que quer extrair.
Este conjunto de dados requer um novo contentor do Cloud Storage. Não use o mesmo contentor que aquele onde os seus documentos estão armazenados.
Importe um documento de amostra para etiquetagem manual
Em seguida, importe um ficheiro PDF de fatura de amostra para o seu conjunto de dados. Etiqueta os campos neste documento para ajudar no processo de atualização subsequente.
Neste guia, é-lhe fornecido um ficheiro representativo para ser o documento de exemplo.
Quando importa documentos, pode atribuí-los opcionalmente ao conjunto de Formação ou Teste no momento da importação, ou aguardar para os atribuir mais tarde.
Se quiser eliminar um ou mais documentos que importou, selecione-os no separador Formar e selecione Eliminar.
Para mais informações sobre a preparação dos dados para importação, consulte o guia de preparação de dados.
Defina o esquema do processador
O seu conjunto de dados pode não conter todas as etiquetas suportadas pelo analisador de faturas.
Se for o caso, tem de marcar as etiquetas que não são usadas como Inactive
antes
de começar a preparação. Também pode adicionar uma ou mais etiquetas personalizadas antes de começar a
atualização.
Etiquete um documento
O processo de selecionar texto num documento e aplicar etiquetas é conhecido como anotação.
Segue-se um exemplo do conjunto completo de etiquetas com o texto correspondente.
Nome da etiqueta | Texto |
---|---|
supplier_name |
McWilliam Piping International Piping Company |
supplier_address |
14368 Pipeline Ave Chino, CA 91710 |
invoice_id |
10001 |
due_date |
2020-01-02 |
line_item/description |
Engates de articulação |
line_item/quantity |
9 |
line_item/unit_price |
74,43 |
line_item/amount |
669,87 |
line_item/description |
Tubo de PVC de 30 cm |
line_item/quantity |
7 |
line_item/unit_price |
15,90 |
line_item/amount |
111,30 |
line_item/description |
Tubo de cobre |
line_item/quantity |
7 |
line_item/unit_price |
91,20 |
line_item/amount |
638,40 |
net_amount |
1419,57 |
total_tax_amount |
113,57 |
total_amount |
1533,14 |
currency |
€ |
Atribua o documento anotado ao conjunto de preparação
Agora que etiquetou este documento de exemplo, pode atribuí-lo ao conjunto de preparação.
No painel do lado esquerdo, pode ver que 1 documento foi atribuído ao conjunto de dados de treino.
Importe dados pré-etiquetados para os conjuntos de preparação e de teste
A preparação adicional da IA Documentos requer um mínimo de 10 documentos nos conjuntos de preparação e de teste, juntamente com 10 instâncias de cada etiqueta em cada conjunto.
Recomendamos que tenha, pelo menos, 50 documentos em cada conjunto, com 50 instâncias de cada etiqueta, para um melhor desempenho. Geralmente, mais dados de preparação equivalem a uma maior precisão.
Neste guia, são fornecidos dados pré-etiquetados. Se estiver a trabalhar no seu próprio projeto, tem de determinar como etiquetar os dados. Consulte as Opções de etiquetagem.
Opcional: etiquete automaticamente os documentos recém-importados
Quando importa documentos não etiquetados para um processador com uma versão do processador implementada, pode usar a etiquetagem automática para poupar tempo na etiquetagem.
Prepare o processador
Agora que importou os dados de preparação e de teste, pode preparar o processador. Uma vez que a preparação pode demorar várias horas, certifique-se de que configurou o processador com os dados e as etiquetas adequados antes de iniciar a preparação.
Implemente a versão do processador
Avalie e teste o processador
Use o processador
Criou e atualizou com êxito um processador Invoice Parser.
Pode gerir as versões do processador com preparação personalizada tal como qualquer outra versão do processador, por exemplo, quando migra para um processador mais recente quando um é descontinuado. Para mais informações, consulte o artigo Gerir versões do processador.
Pode enviar um pedido de processamento ao seu processador personalizado e a resposta pode ser processada da mesma forma que outros processadores de extração de entidades.
Limpar
Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.
Para evitar custos Google Cloud desnecessários, use o Google Cloud console para eliminar o processador e o projeto se não precisar deles.
Se criou um novo projeto para saber mais sobre a IA Documental e já não precisar do projeto, [elimine-o][delete-project].
Se usou um Google Cloud projeto existente, elimine os recursos que criou para evitar incorrer em cobranças na sua conta: