Processar documentos com o Analisador de formulários
O analisador de formulários extrai pares de chave-valor (KVPs), tabelas, marcas de seleção (como caixas de seleção), campos genéricos e texto para aumentar e automatizar o processamento de documentos.
O Parser de formulários pode ser considerado em vez dos outros parsers quando o caso de uso envolve:
- Como lidar com formulários estruturados: ele é excelente em extrair KVPs de
formulários bem definidos que se parecem com formulários convencionais com espaços em branco rotulados para preencher, como
name: __
. O modelo pré-treinado do Analisador de formulários oferece alta precisão para campos comuns, como nomes, datas e endereços. - É necessária uma extração flexível de tabelas: o analisador de formulários extrai de tabelas simples (sem células que se estendem por linhas ou colunas) que se parecem com tabelas. Não é necessário (nem possível) fazer treinamento. Para a extração de tabelas treinadas, o extrator personalizado pode ser usado com um campo pai que contém campos filhos de coluna (célula).
- Necessidade de eficiência: evite criar e manter analisadores de extração, principalmente para tarefas de extração variadas e de alto volume.
Recursos de extração de dados
Os recursos do analisador de formulários incluem:
KVP: são conjuntos de dois itens em um documento: um identificador ou chave e os dados correspondentes (um valor). Você pode usar diretamente os KVPs (se as chaves forem consistentes) ou criar uma lógica personalizada para resolver chaves variadas em informações estruturadas consistentes.
Entidades genéricas:analise 11 campos diferentes de documentos prontos para uso. São eles:
email
phone
url
date_time
address
person
organization
quantity
price
id
page_number
Texto e layout:use nosso mecanismo de OCR mais recente para extrair informações de texto e layout. Isso inclui texto incorporado de PDFs digitais (somente v2.1) ou texto de imagens.
Tabelas:detecta e extrai tabelas de imagens e PDFs.
Caixas de seleção:um detector de marca de seleção de alta qualidade, que extrai caixas de seleção de imagens e saídas de PDF como KVP, usando o texto mais próximo da caixa de seleção, com um
valueType
que indica se ela está preenchida ou não.
Idiomas e regiões
- O Parser de formulários 2.0 oferece suporte a mais de 200 idiomas. Saiba mais.
- Oferecemos suporte a recursos em oito regiões. Saiba mais.
Versões do modelo
As versões de processador a seguir são compatíveis com esse recurso. Para mais informações, consulte Como gerenciar versões de processadores.
Limitações
As compressões JPEG anteriores para TIFF não são compatíveis. Tipo de encapsulamento JPEG definido pela especificação da versão 6.0 do TIFF.
O modelo de caixa de seleção não oferece suporte à análise de botões de opção. Algumas caixas de seleção detectadas podem não ter chaves correspondentes.
O modelo não analisa de forma confiável um KVP com um valor não preenchido, como um formulário em branco.
A análise de KVP em documentos em determinados idiomas pode ter qualidade inferior à de idiomas latinos.
Processar documentos com o Analisador de formulários
Neste guia de início rápido, apresentamos o recurso Analisador de formulários na Document AI. Neste guia de início rápido, você usa o console do Google Cloud para configurar o projeto e a autorização do Google Cloud, cria um Analisador de formulários e, em seguida, faz uma solicitação para que a Document AI processe um formulário em PDF.
Saiba como realizar as seguintes ações:
Ative a Document AI em um projeto do Google Cloud .
Crie um processador do analisador de formulários, que pode identificar e extrair texto, pares de chave-valor, tabelas e entidades genéricas de vários tipos de documentos.
Use o processador para anotar um documento de amostra.
Para seguir as instruções passo a passo desta tarefa diretamente no console do Google Cloud, clique em Orientação:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
Criar um processador do analisador de formulários
Use o console do Google Cloud para criar um processador do analisador de formulários. Consulte Como criar e gerenciar processadores para mais informações.
No menu de navegação do console do Google Cloud, clique em Document AI e selecione Processor Gallery.
Na Galeria de processadores,
procure Analisador de formulários e selecione Criar.Na janela lateral, digite um Nome de processador, como
quickstart-form-processor
.Selecione a região mais próxima de você.
Clique no botão Criar.
Você será direcionado para a página Detalhes do processador do novo processador do analisador de formulários.
Processador de testes
Depois de criar o processador, você pode enviar solicitações de anotação para ele.
Fazer o download do documento de amostra.
Trata-se de um arquivo PDF com um exemplo de formulário de admissão médica escrito à mão. Este documento é armazenado em um bucket do Cloud Storage acessível publicamente.
Clique no botão
Fazer upload do documento de teste e selecione o documento que você acabou de salvar.Agora você está na página Análise do analisador de formulários. É possível conferir o texto detectado pelo OCR, os pares de chave-valor, as tabelas e as entidades genéricas extraídas do documento.
Limpar
Para evitar cobranças desnecessárias do Google Cloud , use o console do Google Cloud para excluir o processador e o projeto se você não precisar deles.
A seguir
- Consulte a lista de processadores.