Rotular documentos
Um conjunto de dados rotulado de documentos é necessário para treinar, aprimorar o treinamento ou avaliar uma versão do processador.
Esta página descreve como aplicar rótulos do esquema do processador aos documentos importados no seu conjunto de dados.
Nesta página, presume-se que você já criou um processador compatível com treinamento, aprimoramento de treinamento ou avaliação. Se o processador tiver suporte, a guia Train vai aparecer no console do Google Cloud. Também é necessário que você tenha criado um conjunto de dados, importado documentos e definido um esquema de processador.
Campos de nomes para extração de IA generativa
A forma como os campos são nomeados influencia a precisão da extração usando a IA generativa. Recomendamos as seguintes práticas recomendadas ao nomear campos:
Nomeie o campo com a mesma linguagem usada para descrevê-lo no documento: por exemplo, se um documento tiver um campo descrito como
Employer Address
, nomeie o campo comoemployer_address
. Não use abreviações, comoemplr_addr
.No momento, os espaços não são aceitos em nomes de campos. Em vez de usar espaços, use
_
. Por exemplo,First Name
seria chamado defirst_name
.Iterar nomes para melhorar a precisão: a Document AI tem uma limitação que não permite que os nomes dos campos sejam alterados. Para testar nomes diferentes, use a ferramenta de renomeação de nome de entidade para atualizar o nome da entidade antiga com um mais recente no conjunto de dados, importe o conjunto de dados, ative as novas entidades no processador e desative ou exclua os campos atuais.
Opções de rotulagem
Estas são as opções para rotular documentos:
Manual: rotule seus documentos manualmente no console do Google Cloud
Rotulação automática: use uma versão de processador atual para gerar rótulos.
Importar documentos pré-rotulados: economize tempo se você já tiver documentos rotulados.
Rotular manualmente no console do Google Cloud
Na guia Treinar, selecione um documento para abrir a ferramenta de rotulagem.
Na lista de rótulos de esquema no lado esquerdo da ferramenta de rotulagem, selecione o símbolo "Adicionar" para selecionar a ferramenta Caixa delimitadora e destacar entidades no documento e atribuí-las a um rótulo.
Na captura de tela a seguir, os campos EMPL_SSN
EMPLR_ID_NUMBER
, EMPLR_NAME_ADDRESS
,
FEDERAL_INCOME_TAX_WH
, SS_TAX_WH
, SS_WAGES
e WAGES_TIPS_OTHER_COMP
no documento foram atribuídos rótulos.
Ao selecionar uma entidade de caixa de seleção com a ferramenta Caixa delimitadora, selecione apenas a caixa de seleção, e não o texto associado. Confira se a entidade de caixa de seleção mostrada à esquerda está marcada ou desmarcada para corresponder ao que está no documento.
Ao rotular entidades pai-filho, não rotule as entidades mãe. As entidades mãe são apenas contêineres das entidades filhas. Apenas rotule as entidades filhas. As entidades principais são atualizadas automaticamente.
Ao rotular entidades filhas, rotule a primeira e associe as entidades filhas relacionadas a essa linha. Você vai notar isso na segunda entidade filha na primeira vez que rotular essas entidades. Por exemplo, em uma fatura, se você rotular descrição, ela vai parecer qualquer outra entidade. No entanto, se você rotular quantity em seguida, será necessário escolher o item principal.
Repita essa etapa para cada item de linha selecionando Nova entidade mãe para cada item de linha.
As entidades pai-filho são um recurso de pré-lançamento e só são compatíveis com tabelas com uma camada de aninhamento. Os modelos de base oferecem suporte a três níveis de campos (avô, pai, filho), para que as entidades filhas possam ter um nível de filhos.
Tabelas rápidas
Ao rotular uma tabela, pode ser cansativo rotular cada linha várias vezes. Há uma ferramenta muito conveniente que pode replicar uma estrutura de entidade de linha. Esse recurso só funciona em linhas alinhadas horizontalmente.
- Primeiro, rotule a primeira linha como de costume.
Em seguida, mantenha o ponteiro sobre a entidade pai que representa a linha. Selecione Adicionar mais linhas. A linha se torna um modelo para criar mais linhas.
Selecione o restante da área da tabela.
A ferramenta adivinha as anotações e geralmente funciona. Para as tabelas que não podem ser processadas, faça anotações manualmente.
Usar atalhos do teclado no console
Para conferir os atalhos do teclado disponíveis, selecione o menu
no canto superior direito do console de rotulagem. Ela mostra uma lista de atalhos de teclado, conforme mostrado na tabela a seguir.Ação | Atalho |
---|---|
Aumentar zoom | Alt + = (Option + = no macOS) |
Diminuir zoom | Alt + - (Option + - no macOS) |
Zoom para ajustar | Alt + 0 (Option + 0 no macOS) |
Rolar para aplicar zoom | Alt + Scroll (Option + Scroll no macOS) |
Panorâmica | Rolagem |
Panorâmica invertida | Shift + Scroll |
Arrastar para mover | Espaço + arrastar o mouse |
Desfazer | Ctrl + Z (Control + Z no macOS) |
Refazer | Ctrl + Shift + Z (Control + Shift + Z no macOS) |
Identificador automático
Se disponível, use uma versão atual do processador para começar a rotular.
A rotulagem automática pode ser iniciada durante a import. Todos os documentos são anotados usando a versão do processador especificada.
A rotulagem automática pode ser iniciada após a import de documentos na categoria sem rótulos ou rotulados automaticamente. Todos os documentos selecionados são anotados usando a versão do processador especificada.
Não é possível treinar ou aprimorar o treinamento em documentos rotulados automaticamente ou usá-los no conjunto de testes sem marcá-los como rotulados. Revise e corrija manualmente as anotações rotuladas automaticamente e selecione Marcar como rotulado para salvar as correções. Em seguida, atribua os documentos conforme apropriado.
Importar documentos pré-rotulados
É possível importar arquivos JSON Document
. Se o entity
no documento corresponder ao rótulo no esquema
do processador, o entity
será convertido em uma instância de rótulo pelo importador. Há
várias maneiras de conseguir arquivos de documentos JSON:
Exportar um conjunto de dados de outro processador. Consulte Exportar conjunto de dados.
Enviar uma solicitação de processamento para um processador.
Use o kit de ferramentas de importação para converter rótulos de outro sistema, por exemplo, rótulos de formato CSV em documentos JSON.
Práticas recomendadas para rotular documentos
É necessário rotular de forma consistente para treinar um processador de alta qualidade. Recomendamos que você:
Crie instruções de rotulagem: as instruções precisam incluir exemplos para casos comuns e extremos. Algumas dicas:
- Explique quais campos precisam ser anotados e como exatamente tornar a marcação consistente. Por exemplo, ao rotular "amount", especifique se o símbolo da moeda precisa ser rotulado. Se os rótulos não forem consistentes, a qualidade do processador será reduzida.
- Rotule todas as ocorrências de uma entidade, mesmo que o tipo de rótulo seja
REQUIRED_ONCE
ouOPTIONAL_ONCE
. Por exemplo, seinvoice_id
aparecer duas vezes no documento, marque todas as ocorrências dele. - Geralmente, é preferível rotular primeiro com a ferramenta de caixa delimitadora padrão. Se isso não funcionar, use a ferramenta de seleção de texto.
- Se o valor do rótulo não for detectado corretamente pelo OCR, não corrija o valor manualmente. Isso tornaria o modelo inutilizável para fins de treinamento.
Confira alguns exemplos de instruções de rotulagem:
- Analisador de extrato bancário
- Analisador de utilitários
- Pay Slip Parser (em inglês)
- Analisador de despesas
- Analizador de faturas
- Treinar anotadores: verifique se os anotadores entendem e podem seguir as diretrizes sem erros sistemáticos. Uma maneira de fazer isso é pedir que diferentes estagiários façam anotações no mesmo conjunto de documentos. O instrutor pode verificar a qualidade do trabalho de anotação de cada estagiário. Talvez seja necessário repetir esse processo até que os trainees atinjam um nível de precisão de referência.
- Revisão inicial: os primeiros documentos (10 ou mais) rotulados para um caso de uso por um novo rotulador precisam ser revisados antes que um grande número de documentos seja rotulado para evitar um grande número de erros que precisam ser corrigidos.
- Avaliações de qualidade da anotação: devido à natureza trabalhosa da anotação, até mesmo anotadores treinados podem cometer erros. Recomendamos que as anotações sejam verificadas por pelo menos mais um anotador treinado.
Ressincronizar o conjunto de dados
A restauração de sincronização mantém a pasta do Cloud Storage do seu conjunto de dados consistente com o índice interno de metadados da Document AI. Isso é útil se você fez alterações na pasta do Cloud Storage por acidente e quer sincronizar os dados.
Para resincronizar:
Na guia Detalhes do processador, ao lado da linha Local de armazenamento, selecione
e Sincronizar novamente o conjunto de dados.Observações sobre o uso:
- Se você excluir um documento da pasta do Cloud Storage, a resynchronização removerá o documento do conjunto de dados.
- Se você adicionar um documento à pasta do Cloud Storage, a resynchronização não vai adicioná-lo ao conjunto de dados. Para adicionar documentos, importe-os.
- Se você modificar os rótulos de documentos na pasta do Cloud Storage, a resynchronização vai atualizar os rótulos de documentos no conjunto de dados.
Migrar conjunto de dados
A importação e exportação permite mover todos os documentos de um conjunto de dados de um processador para outro. Isso pode ser útil se você tiver processadores em diferentes regiões ou projetos Google Cloud , se você tiver processadores diferentes para preparação e produção ou para consumo geral off-line.
Somente os documentos e os rótulos deles são exportados. Os metadados do conjunto de dados, como o esquema do processador, as atribuições de documentos (treinamento/teste/não atribuído) e o status de rotulagem de documentos (rotulados, sem rótulos, rotulados automaticamente) não são exportados.
Copiar e importar o conjunto de dados e, em seguida, treinar o processador de destino não é
exatamente igual ao treinamento do processador de origem. Isso ocorre porque valores aleatórios são usados
no início do processo de treinamento. Use a chamada da API importProcessorVersion
para importar e migrar o mesmo modelo entre projetos. Essa é a prática
recomendada para a migração de processadores para ambientes mais altos (por exemplo, do desenvolvimento
para o ambiente de pré-produção e de lá para a produção), se as políticas permitirem.
Exportar conjunto de dados
Para exportar todos os documentos como arquivos JSON
Document
para uma pasta do Cloud Storage,
selecione Exportar conjunto de dados.
Alguns pontos importantes:
Durante a exportação, três subpastas são criadas: Teste, Treinamento e Não atribuída. Seus documentos são colocados nessas subpastas.
O status de rotulagem de um documento não é exportado. Se você importar os documentos mais tarde, eles não serão marcados como rotulados automaticamente.
Se o Cloud Storage estiver em um projeto diferente do Google Cloud , conceda acesso para que a Document AI possa gravar arquivos nesse local. Especificamente, é necessário conceder o papel de Criador de objetos do Storage ao Agente de serviço principal da Document AI
service-{project-id}@gcp-sa-prod-dai-core.iam.gserviceaccount.com
. Para mais informações, consulte Agentes de serviço.
Importar conjunto de dados
O procedimento é o mesmo de Importar documentos.
Guia do usuário sobre rotulagem seletiva
A rotulagem seletiva ajuda com recomendações sobre quais documentos rotular. Você pode criar diversos conjuntos de dados de treinamento e teste para treinar modelos representativos. Cada vez que a rotulagem seletiva é realizada, os documentos mais diversos (até 30) do conjunto de dados são selecionados.
Como receber documentos sugeridos
Crie um processador de CDE e importe documentos.
- Pelo menos 100 são necessários para o treinamento (25 para teste).
- Depois que documentos suficientes forem importados e após a rotulagem seletiva, a barra de informações vai aparecer.
No caso de um processador de CDE sem documentos sugeridos, importe mais para ter documentos suficientes em cada divisão para a amostragem.
- Isso vai ativar os documentos sugeridos na Categoria sugerida. Você pode solicitar os documentos sugeridos manualmente.
- Há um novo filtro na parte de cima para filtrar os documentos sugeridos.
Rotular documentos sugeridos
Acesse Categoria sugerida no painel da lista de rótulos à esquerda. Comece a rotular esses documentos.
Selecione Rotular automaticamente na barra de informações se o processador estiver treinado. Rotule os documentos sugeridos.
Você pode selecionar Revisar agora na barra quando tiver documentos sugeridos no processador para navegar. Todos os documentos rotulados automaticamente precisam ser revisados para garantir a precisão. Comece a analisar.
Treinar depois de rotular todos os documentos sugeridos
Vá para Treinar agora na barra de informações. Quando os documentos sugeridos forem marcados, você verá a barra de informações a seguir recomendando o treinamento.
Recursos compatíveis e limitações
Recurso | Descrição | Compatível |
---|---|---|
Suporte a processadores antigos | Pode não funcionar bem com processadores antigos com um conjunto de dados importado anteriormente |