Um conjunto de dados rotulado de documentos é necessário para treinar, aprimorar o treinamento ou avaliar uma versão do processador.
Nesta página, descrevemos como aplicar rótulos do esquema do processador aos documentos importados no seu conjunto de dados.
Nesta página, presume-se que você já criou um processador que oferece suporte a treinamento, aprimoramento de treinamento ou avaliação. Se o processador for compatível, a guia Treinar vai aparecer no console do Google Cloud . Também pressupõe que você já criou um conjunto de dados, importou documentos e definiu um esquema de processador.
Campos de nomes para extração de IA generativa
A forma como os campos são nomeados influencia a precisão da extração usando a IA generativa. Recomendamos as seguintes práticas recomendadas ao nomear campos:
Nomeie o campo com a mesma linguagem usada para descrevê-lo no documento: por exemplo, se um documento tiver um campo descrito como
Employer Address
, nomeie o campoemployer_address
. Não use abreviações, comoemplr_addr
.No momento, não é possível usar espaços em nomes de campos: em vez de usar espaços, use
_
. Por exemplo,First Name
seria chamado defirst_name
.Iterar nomes para melhorar a precisão: a Document AI tem uma limitação que não permite a mudança dos nomes dos campos. Para testar nomes diferentes, use a ferramenta de renomeação de entidades para atualizar o nome da entidade antiga com um mais recente no conjunto de dados, importe o conjunto de dados, ative as novas entidades no processador e desative ou exclua os campos atuais.
Aprendizado sem disparos (zero-shot) e de poucos disparos (few-shot)
Os modelos com o Gemini têm aprendizado zero-shot e few-shot, que podem criar modelos de alta performance com poucos ou nenhum dado de treinamento.
O aprendizado sem exemplos é um exemplo de machine learning em que um modelo pré-treinado sem nenhum treinamento adicional aprende a reconhecer e classificar classes e entidades que não foram encontradas antes durante o teste.
O aprendizado few-shot é quando um modelo aprende a reconhecer e classificar novas classes e entidades com apenas alguns exemplos de treinamento por classe. Ele aproveita o conhecimento de modelos pré-treinados em conjuntos de dados grandes e bem rotulados para melhorar o desempenho em tarefas de poucos exemplos.
O aprendizado com poucos exemplos se torna mais eficaz quando o conjunto de dados de treinamento é organizado e cuidadosamente rotulado. Normalmente, isso significa ter pelo menos 10 exemplos de teste e 10 de treinamento disponíveis para o modelo aprender.
Opções de rotulagem
Estas são as opções para rotular documentos:
Manual: rotule manualmente seus documentos no console do Google Cloud
Rotulação automática: use uma versão de processador para gerar rótulos.
Importar documentos pré-rotulados: economize tempo se você já tiver documentos rotulados.
Rotular manualmente no console do Google Cloud
Na guia Treinar, selecione um documento para abrir a ferramenta de rotulagem.
Na lista de rótulos de esquema à esquerda da ferramenta de rotulagem, selecione o símbolo "Adicionar" para escolher a ferramenta Caixa delimitadora e destacar entidades no documento, atribuindo um rótulo a elas.
Na captura de tela a seguir, os campos EMPL_SSN
EMPLR_ID_NUMBER
, EMPLR_NAME_ADDRESS
, FEDERAL_INCOME_TAX_WH
, SS_TAX_WH
, SS_WAGES
e WAGES_TIPS_OTHER_COMP
no documento receberam rótulos.
Ao selecionar uma entidade de caixa de seleção com a ferramenta Caixa delimitadora, selecione apenas a caixa de seleção, e não o texto associado. Confira se a caixa de seleção mostrada à esquerda está marcada ou desmarcada para corresponder ao que está no documento.
Ao rotular entidades pai-filho, não rotule as entidades pai. As entidades principais são apenas contêineres das entidades filhas. Rotule apenas as entidades filhas. As entidades principais são atualizadas automaticamente.
Ao rotular entidades filhas, rotule a primeira e depois associe as entidades filhas relacionadas a essa linha. Você percebe isso na segunda entidade filha na primeira vez que rotula essas entidades. Por exemplo, em uma fatura, se você rotular descrição, ela vai parecer qualquer outra entidade. No entanto, se você rotular quantidade em seguida, será solicitado a escolher o item principal.
Repita essa etapa para cada item de linha selecionando Nova entidade principal para cada novo item de linha.
As entidades pai-filho são compatíveis com tabelas que têm até três camadas de aninhamento. Os modelos de fundação oferecem suporte a três níveis de campos (avô, pai, filho), para que as entidades filhas possam ter um nível de filhos. Para saber mais sobre o aninhamento, consulte Aninhamento de três níveis.
Tabelas rápidas
Ao rotular uma tabela, pode ser cansativo rotular cada linha repetidamente. Há uma ferramenta muito conveniente que pode replicar uma estrutura de entidade de linha. Esse recurso só funciona em linhas alinhadas horizontalmente.
- Primeiro, rotule a primeira linha normalmente.
Em seguida, posicione o ponteiro sobre a entidade pai que representa a linha. Selecione Adicionar mais linhas. A linha se torna um modelo para criar mais linhas.
Selecione o restante da área da tabela.
A ferramenta adivinha as anotações e geralmente funciona. Para as tabelas que não podem ser processadas, anote-as manualmente.
Usar atalhos do teclado no console
Para conferir os atalhos de teclado disponíveis, selecione o menu
no canto superior direito do console de rotulagem. Ela mostra uma lista de atalhos do teclado, conforme mostrado na tabela a seguir.Ação | Atalho |
---|---|
Aumentar zoom | Alt + = (Option + = no macOS) |
Diminuir zoom | Alt + - (Option + - no macOS) |
Zoom para ajustar | Alt + 0 (Option + 0 no macOS) |
Rolar para aplicar zoom | Alt + rolar (Option + rolar no macOS) |
Panorâmica | Rolagem |
Panorâmica invertida | Shift + rolar |
Arrastar para mover | Espaço + arrastar o mouse |
Desfazer | Ctrl + Z (Control + Z no macOS) |
Refazer | Ctrl + Shift + Z (Control + Shift + Z no macOS) |
Identificador automático
Se disponível, use uma versão atual do seu processador para começar a rotular.
A rotulagem automática pode ser iniciada durante a importação. Todos os documentos são anotados usando a versão especificada do processador.
A rotulagem automática pode ser iniciada após a importação de documentos na categoria sem rótulo ou rotulada automaticamente. Todos os documentos selecionados são anotados usando a versão especificada do processador.
Não é possível treinar ou aprimorar o treinamento em documentos com rótulos automáticos nem usá-los no conjunto de teste sem marcá-los como rotulados. Revise e corrija manualmente as anotações rotuladas automaticamente e selecione Marcar como rotulado para salvar as correções. Depois, você pode atribuir os documentos conforme necessário.
Importar documentos pré-rotulados
É possível importar arquivos JSON Document
. Se o entity
no documento corresponder ao rótulo no esquema do
processador, o entity
será convertido em uma instância de rótulo pelo importador. Há várias maneiras de conseguir arquivos de documento JSON:
Exportar um conjunto de dados de outro processador. Consulte Exportar conjunto de dados.
Enviar uma solicitação de processamento para um processador atual.
Use o kit de ferramentas de importação para converter rótulos de outro sistema, por exemplo, rótulos no formato CSV em documentos JSON.
Práticas recomendadas para rotular documentos
A rotulagem consistente é necessária para treinar um processador de alta qualidade. Recomendamos que você:
Crie instruções de rotulagem: suas instruções precisam incluir exemplos para casos comuns e extremos. Algumas dicas:
- Explique quais campos precisam ser anotados e como fazer a rotulagem de forma consistente. Por exemplo, ao rotular "valor", especifique se o símbolo da moeda deve ser rotulado. Se os rótulos não forem consistentes, a qualidade do processador será reduzida.
- Rotule todas as ocorrências de uma entidade, mesmo que o tipo de rótulo seja
REQUIRED_ONCE
ouOPTIONAL_ONCE
. Por exemplo, seinvoice_id
aparecer duas vezes no documento, rotule todas as ocorrências. - Em geral, é preferível rotular primeiro com a ferramenta de caixa delimitadora padrão. Se isso não funcionar, use a ferramenta de seleção de texto.
- Se o valor do rótulo não for detectado corretamente pelo OCR, não corrija o valor manualmente. Isso o tornaria inutilizável para fins de treinamento.
Confira alguns exemplos de instruções de rotulagem:
- Analisador de extrato bancário
- Analisador de utilitário
- Analisador de holerite
- Analisador de despesas
- Analisador de faturas
- Treine os anotadores: verifique se eles entendem e podem seguir as diretrizes sem erros sistemáticos. Uma maneira de fazer isso é pedir que diferentes trainees anotem o mesmo conjunto de documentos. Em seguida, o instrutor pode verificar a qualidade do trabalho de anotação de cada trainee. Talvez seja necessário repetir esse processo até que os trainees alcancem um nível de acurácia de comparativo de mercado.
- Revisões iniciais: os primeiros documentos (cerca de 10) rotulados para um caso de uso por um novo rotulador precisam ser revisados antes que um grande número de documentos seja rotulado para evitar muitos erros que precisam ser corrigidos.
- Revisões da qualidade da anotação: dada a natureza trabalhosa da anotação, até mesmo anotadores treinados podem cometer erros. Recomendamos que as anotações sejam verificadas por pelo menos mais um anotador treinado.
Adicionar uma solicitação de descrição
Ao adicionar rótulos ao esquema no extrator e classificador personalizados, você pode adicionar uma descrição para o rótulo. Isso ajuda a treinar o processador fornecendo um comando para identificar o rótulo. Tente variar um pouco para testar a qualidade da resposta. Por exemplo, "valor total", "valor total da fatura" ou "valor total da fatura".
Sincronizar novamente o conjunto de dados
A ressincronização mantém a pasta do Cloud Storage do conjunto de dados consistente com o índice interno de metadados da Document AI. Isso é útil se você fez mudanças acidentais na pasta do Cloud Storage e quer sincronizar os dados.
Para ressincronizar:
Na guia Detalhes do processador, ao lado da linha Local de armazenamento, selecione
e Sincronizar novamente o conjunto de dados.Observações sobre o uso:
- Se você excluir um documento da pasta do Cloud Storage, a ressincronização vai removê-lo do conjunto de dados.
- Se você adicionar um documento à pasta do Cloud Storage, a ressincronização não o adicionará ao conjunto de dados. Para adicionar documentos, importe-os.
- Se você modificar os rótulos dos documentos na pasta do Cloud Storage, a resincronização vai atualizar os rótulos dos documentos no conjunto de dados.
Migrar conjunto de dados
A importação e exportação permite mover todos os documentos de um conjunto de dados de um processador para outro. Isso pode ser útil se você tiver processadores em diferentes regiões ou projetos Google Cloud , se você tiver processadores diferentes para preparação e produção ou para consumo geral off-line.
Observação: somente os documentos e os rótulos deles são exportados. Os metadados do conjunto de dados, como esquema do processador, atribuições de documentos (treinamento/teste/não atribuído) e status de rotulagem de documentos (rotulado, sem rótulo, rotulado automaticamente) não são exportados.
Copiar e importar o conjunto de dados e treinar o processador de destino não é exatamente o mesmo que treinar o processador de origem. Isso ocorre porque valores aleatórios são usados no início do processo de treinamento. Use a chamada da API importProcessorVersion
para importar e migrar o mesmo modelo entre projetos. Essa é a prática recomendada para migração de processadores para ambientes mais altos (por exemplo, desenvolvimento para teste para produção), se as políticas permitirem.
Exportar conjunto de dados
Para exportar todos os documentos como arquivos JSON
Document
para uma pasta do Cloud Storage,
selecione Exportar conjunto de dados.
Alguns pontos importantes:
Durante a exportação, três subpastas são criadas: Teste, Treinamento e Não atribuído. Seus documentos são colocados nessas subpastas de acordo com o tipo.
O status de rotulagem de um documento não é exportado. Se você importar os documentos mais tarde, eles não serão marcados como rotulados automaticamente.
Se o Cloud Storage estiver em um projeto Google Cloud diferente, conceda acesso para que a Document AI possa gravar arquivos nesse local. Especificamente, você precisa conceder o papel Criador de objetos do Storage ao agente de serviço principal da Document AI
service-{project-id}@gcp-sa-prod-dai-core.iam.gserviceaccount.com
. Para mais informações, consulte Agentes de serviço.
Importar conjunto de dados
O procedimento é o mesmo de Importar documentos.
Guia do usuário sobre rotulagem seletiva
A rotulagem seletiva ajuda com recomendações sobre quais documentos rotular. Você pode criar conjuntos de dados de treinamento e teste diversos para treinar modelos representativos. Cada vez que a rotulagem seletiva é realizada, os documentos mais diversos (até 30) do conjunto de dados são selecionados.
Receber documentos sugeridos
Crie um processador de CDE e importe documentos.
- Pelo menos 100 são necessários para treinamento (25 para teste).
- Depois que documentos suficientes forem importados e rotulados seletivamente, a barra de informações vai aparecer.
Se um processador de CDE não tiver documentos sugeridos, importe mais para ter documentos suficientes em qualquer divisão para amostragem.
- Isso vai ativar os documentos sugeridos na categoria "Sugestões". Você pode solicitar documentos sugeridos manualmente.
- Há um novo filtro na parte de cima para remover os documentos sugeridos.
Rotular documentos sugeridos
Acesse Categoria sugerida no painel à esquerda da lista de rótulos. Comece a rotular esses documentos.
Selecione Rotulagem automática na barra de informações se o processador estiver treinado. Rotule os documentos sugeridos.
Em seguida, selecione Revisar agora na barra quando houver documentos sugeridos no processador para navegar. Todos os documentos rotulados automaticamente precisam ser revisados para garantir a precisão. Comece a revisão.
Treinar depois de rotular todos os documentos sugeridos
Acesse Treinar agora na barra de informações. Quando os documentos sugeridos forem rotulados, você vai ver a seguinte barra de informações recomendando o treinamento.
Recursos e limitações compatíveis
Recurso | Descrição | Com suporte |
---|---|---|
Suporte para processadores antigos | Pode não funcionar bem com processadores antigos e conjuntos de dados importados anteriormente |