Mecanismos de extração personalizados
Você pode criar extratores personalizados que são especificamente adequados para seus documentos, além de serem treinados e avaliados com seus dados. Esse processador identifica e extrai entidades dos seus documentos. Você pode usar o processador treinado em outros documentos.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Criar um processador
No console do Google Cloud, na seção do Document AI, acesse a página Workbench.
Para o extrator personalizado, selecione
Criar processador .No menu Criar processador, insira um nome para o processador, como
my-custom-document-extractor
.Selecione a região mais próxima de você.
Opcional: abra as Opções avançadas.
É possível permitir que o Google crie um bucket do Cloud Storage para você ou criar seu próprio bucket. Para este tutorial, selecione Armazenamento gerenciado pelo Google.
Você também tem a opção de usar chaves de criptografia gerenciadas pelo Google ou pelo cliente (CMEK). Para este tutorial, selecione gerenciada pelo Google com o Google Cloud.
Selecione Criar para criar o processador.
Definir os campos do processador
Agora você está na página Visão geral do processador do processador que você criou.
Você pode especificar os campos que quer que o processador extraia e comece a rotular os documentos.
Selecione a guia
Começar . O menu Campos será exibido.Selecione Criar novo campo.
Digite o nome do campo. Selecione o Tipo de dados e a Ocorrência. Dê ao rótulo uma descrição detalhada e distinta. A descrição da propriedade permite fornecer mais contexto, insights e conhecimento prévio para cada entidade para melhorar a acurácia e o desempenho da extração.
- Selecione Criar. Consulte Definir esquema de processador para instruções detalhadas sobre como criar e editar um esquema.
Crie cada um dos rótulos a seguir para o esquema do processador.
Nome Tipo de dados Ocorrência control_number
Número Opcional várias vezes employees_social_security_number
Número Obrigatória várias vezes employer_identification_number
Número Obrigatória várias vezes employers_name_address_and_zip_code
Endereço Obrigatória várias vezes federal_income_tax_withheld
Dinheiro Obrigatória várias vezes social_security_tax_withheld
Dinheiro Obrigatória várias vezes social_security_wages
Dinheiro Obrigatória várias vezes wages_tips_other_compensation
Dinheiro Obrigatória várias vezes Também é possível criar e usar outros tipos de rótulos no esquema do processador, como caixas de seleção e entidades tabulares. Por exemplo, os formulários W-2 contêm caixas de seleção de Funcionário estatutário, plano de aposentadoria e pagamento de doença de terceiros que também podem ser adicionadas ao esquema.
Fazer upload de um documento de amostra
Teste com um documento de exemplo.
Selecione Fazer upload do documento de exemplo.
Na barra lateral, clique em Importar documentos do Cloud Storage.
Para este exemplo, digite o nome do bucket em
Caminho de origem Este link direciona para um documento.cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
Selecione Importar.
O console de rotulagem será aberto.
Rotular um documento
O processo de selecionar texto em um documento e aplicar rótulos é conhecido como anotação ou rotulação.
No console de rotulagem, observe que muitos dos rótulos já estão preenchidos. Isso ocorre porque o tipo de modelo do extrator personalizado padrão é um modelo de fundação que pode realizar previsões zero-shot, ou seja, sem treinamento.
Para usar os rótulos sugeridos, mantenha o ponteiro do mouse sobre cada
rótulo no painel lateral e selecione a marca de seleção para confirmar se o rótulo está correto. Não edite o texto, mesmo que o OCR leia o texto incorretamente.Neste exemplo, os valores na parte inferior do documento não foram identificados automaticamente, portanto, você precisa rotulá-los manualmente.
Use os ícones na barra de ferramentas acima do documento para rotular. Use a ferramenta
caixa delimitadora por padrão ou a ferramentaSelecionar texto para valores de várias linhas e para aplicar o rótulo.Depois que o texto for selecionado, um menu suspenso será exibido com todos os campos definidos (entidades) para você selecionar um. Neste exemplo, o valor de
wages_tips_other_compensation
foi selecionado com a ferramenta caixa delimitadora, e esse rótulo é aplicado.Revise os valores de texto detectados para garantir que eles reflitam o local correto do texto para cada campo. O documento W2 rotulado deve ficar assim quando concluído:
Se necessário, selecione
Criar novo campo para adicionar um novo campo ao esquema nessa página.Selecione
Marcar como rotulado quando terminar de anotar o documento. A guia Primeiros passos será aberta.
Criar a versão do processador usando o modelo básico
Depois de rotular um único documento, é possível criar uma versão do processador usando o modelo de fundação pré-treinado para extrair entidades.
Selecione a guia
Criar .Em Modelo de fundação da chamada, clique em Criar nova versão.
Digite um nome para a versão do processador, como
w2-foundation-model
.Selecione Criar versão. A criação leva alguns minutos.
Opcional: clique na guia
Implantar e usar . Nesta página, confira as versões disponíveis do processador e o status da implantação da nova versão.
Usar IA generativa para identificar documentos automaticamente
O modelo de fundação extrai campos com precisão para diversos tipos de documentos, mas também é possível fornecer mais dados de treinamento para melhorar a acurácia do modelo em estruturas de documentos específicas.
O extrator personalizado usa os nomes de rótulo que você define e anotações anteriores para tornar mais rápido e fácil rotular documentos em escala com rotulagem automática.
Acesse a página
Build .Clique em
Importar documentos .Na barra lateral, clique em Importar documentos do Google Cloud Storage.
Digite o nome do bucket que contém seus documentos.
Na lista Divisão de dados, selecione Dividir automaticamente. Isso divide automaticamente os documentos para que tenham 80% no conjunto de treinamento e 20% no conjunto de teste.
Na seção rotulação automática, marque a caixa de seleção
Importar com a rotulagem automática .Selecione a versão do processador do modelo de base para rotular os documentos.
Clique em Importar e aguarde os documentos. Você pode sair desta página e continuar mais tarde.
É necessário verificar os documentos rotulados automaticamente antes de usá-los para treinamento ou teste. Selecione
Iniciar rotulagem para ver os documentos rotulados automaticamente.Para usar os rótulos sugeridos, mantenha o ponteiro sobre cada
anotação e clique na marca de seleção para confirmar se o marcador está correto. Para fins de treinamento, não edite os valores se eles não corresponderem ao texto do documento. Só mude a caixa delimitadora se o texto errado for selecionado.Selecione
Marcar como rotulado quando terminar de anotar o documento.Repita essas etapas para cada documento identificado automaticamente.
Importar documentos de treinamento pré-rotulados
Acesse a página
Build .Clique em
Importar documentos .Na barra lateral, clique em Importar documentos do Cloud Storage.
Digite o caminho em Caminho de origem que contém seus documentos. Esse bucket precisa conter documentos pré-rotulados no formato Document JSON.
Na lista Divisão de dados, selecione Dividir automaticamente. Isso divide automaticamente os documentos para que tenham 80% no conjunto de treinamento e 20% no conjunto de teste. Deixe a opção Importar com rotulagem automática desmarcada.
Selecione Importar. A importação leva alguns minutos.
Opcional: visualizar e gerenciar conjunto de dados
- Na página Criar, você pode acessar o console
Gerenciar conjunto de dados para ver e editar todos os documentos e rótulos no conjunto de dados.
Treinar processador baseado em modelo personalizado
Como o treinamento pode levar várias horas, confirme se você configurou o processador com os dados e rótulos apropriados antes de começar o treinamento.
Para informações sobre os requisitos do conjunto de dados, em Treinar um modelo personalizado, clique em Criar nova versão ou Visualizar requisitos completos. Esse não é um modelo de IA generativa. São necessárias pelo menos 10 instâncias de treinamento e 10 instâncias de teste de cada campo para um processador baseado em modelo personalizado.
No campo Nome da versão, insira um nome para essa versão do processador, como
w2-custom-model
.Opcional: selecione Ver estatísticas dos rótulos para conferir informações sobre os rótulos dos documentos. Isso pode ajudar a determinar a cobertura. Selecione Fechar para retornar à configuração de treinamento.
Em Método de treinamento de modelo, selecione Baseado em modelo.
Selecione Iniciar treinamento. O treinamento leva algumas horas. Você pode fechar esta página e voltar mais tarde.
Opcional: clique na guia
Implantar e usar . Nessa página, é possível conferir as versões disponíveis do processador e o status do treinamento da nova versão.
Implantar a versão do processador
Após a conclusão do treinamento, selecione a guia
Implantar e usar .Clique na caixa de seleção à esquerda da versão que você quer implantar e selecione Implantar.
Selecione Implantar na caixa de diálogo. A implantação leva alguns minutos.
Quando a versão for implantada, você poderá defini-la como
Versão padrão ou fornecer o ID da versão ao processar documentos com a API.
Avaliar e testar o processador
Selecione
Avaliar para testar a versão do processador. Nessa página, é possível ver as métricas de avaliação, incluindo a pontuação F1, precisão e recall para o documento completo e os rótulos individuais. Para mais informações sobre avaliação e estatísticas, consulte Avaliar processador.Clique no seletor
Versão e selecione a versão usando o modelo de fundação.Faça o download de um documento que não esteja envolvido em treinamentos ou testes anteriores para usá-lo na avaliação da versão do processador. Se você estiver usando seus próprios dados, use um documento reservado para essa finalidade.
Selecione
Fazer upload do documento de teste e selecione o documento que você acabou de fazer download. A página Análise de extrator de documentos personalizado é aberta. A saída na tela demonstra como o documento foi extraído.Teste o documento novamente usando a versão com um modelo treinado personalizado.
Usar o processador
Você criou e treinou um processador extrator personalizado.
É possível gerenciar suas versões de processador treinado personalizado como qualquer outra versão de processador. Para mais informações, consulte Como gerenciar versões do processador.
Para usar a API Document AI:
- Siga os exemplos de código em Enviar uma solicitação de processamento
para usar o processamento on-line ou em lote.
- Consulte Cotas e limites para ver o número de páginas compatíveis com processamento on-line e em lote.
- Siga o exemplo de código do extrator personalizado em Processar resposta do processamento para receber as entidades extraídas do processador.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
Para evitar cobranças desnecessárias do Google Cloud , use o console do Google Cloud para excluir o processador e o projeto se você não precisar deles.
Se você criou um projeto novo para aprender sobre a Document AI e não precisa mais dele, exclua o projeto.
Se você usou um projeto do Google Cloud , exclua os recursos criados para evitar cobranças na sua conta:
No menu de navegação do console do Google Cloud, selecione Document AI e Meus processadores.
Selecione
Mais ações na mesma linha do processador que você quer excluir.Selecione Excluir processador, insira o nome do processador e selecione Excluir novamente para confirmar.
A seguir
Para mais detalhes, consulte os Guias.