Comportamento dos divisores
A saída do processador de divisão contém informações de divisão para o documento de entrada, incluindo uma
pontuação de confiança. A API Document AI gera um objeto JSON Document
, e o formato de saída usa o campo entities
para representar as divisões de documentos. Outras informações dependem do tipo
específico de divisor.
Entity.type
especifica a classificação do documento. Para conferir uma lista completa dos tipos de documentos que podem ser identificados, consulte as listas a seguir.Entity.pageAnchor.pageRefs[]
especifica as páginas que contêm cada subdocumento.pageRefs[].page
é baseado em zero e é o índice do campodocument.pages[]
.
Esta é uma resposta típica de um divisor JSON para um documento reconhecido, indicando um
documento de classe form_140
na segunda e terceira páginas do arquivo de entrada:
{
"textAnchor": {
"textSegments": [
{
"startIndex": "5543",
"endIndex": "10470"
}
]
},
"type": "form_1040",
"confidence": 0.8983272,
"pageAnchor": {
"pageRefs": [
{
"page": "1",
"confidence": 0.8983272
},
{
"page": "2",
"confidence": 0.9636311
}
]
}
},
Ao contrário do classificador personalizado, os divisores não fornecem mais de uma classe e as pontuações de confiança dela.
O divisor não foi projetado para dividir documentos lógicos com mais de 30 páginas. Documentos lógicos com mais de 30 páginas (por exemplo, um extrato bancário de 40 páginas) podem ser divididos em dois ou mais documentos e classificados separadamente.
Os divisores identificam os limites da página, mas não dividem o documento de entrada. O SDK da Document AI Toolbox fornece funções de utilitário que podem dividir o documento de entrada com base na saída de um processador de divisão.
É altamente recomendável que as previsões de divisão sejam analisadas por humanos antes da divisão de arquivos, a menos que a precisão seja aceitável para as necessidades de negócios.
Tipos de documentos identificados
Esta seção detalha as classes de documentos reconhecidas por processadores de divisão pré-treinados.
[1] O analisador correspondente a esse formulário não oferece suporte a esse tipo de documento. Isso significa que o divisor pode identificar e classificar documentos desse tipo, mas a Document AI não fornece um analisador para extrair informações.
Exemplos de saída
Processadores | Exemplos de saída |
---|
Exemplos de código
Os divisores identificam os limites da página, mas não dividem o documento de entrada. É possível usar o Document AI Toolbox para dividir fisicamente um arquivo PDF usando os limites de página. Os exemplos de código a seguir imprimem os intervalos de páginas sem dividir o PDF:
Java
Para mais informações, consulte a documentação de referência da API Document AI Java.
Para autenticar na Document AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para mais informações, consulte a documentação de referência da API Document AI Node.js.
Para autenticar na Document AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para mais informações, consulte a documentação de referência da API Document AI Python.
Para autenticar na Document AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Document
processado.
Python
Para mais informações, consulte a documentação de referência da API Document AI Python.
Para autenticar na Document AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.