A saída do processador de divisão contém informações sobre o documento de entrada, incluindo uma pontuação de confiança. A API Document AI gera um objeto JSON Document
, e o formato de saída usa o campo entities
para representar divisões de documentos. Outras informações dependem do tipo específico de divisor.
Entity.type
especifica a classificação do documento. Para ver uma lista completa dos tipos de documentos que podem ser identificados, consulte as listas a seguir.Entity.pageAnchor.pageRefs[]
especifica as páginas que contêm cada subdocumento.pageRefs[].page
é baseado em zero e é o índice no campodocument.pages[]
.
Esta é uma resposta típica do divisor JSON para um documento reconhecido, indicando um documento da classe form_140
na segunda e terceira páginas do arquivo de entrada:
{
"textAnchor": {
"textSegments": [
{
"startIndex": "5543",
"endIndex": "10470"
}
]
},
"type": "form_1040",
"confidence": 0.8983272,
"pageAnchor": {
"pageRefs": [
{
"page": "1",
"confidence": 0.8983272
},
{
"page": "2",
"confidence": 0.9636311
}
]
}
},
Ao contrário do classificador personalizado, os divisores não fornecem mais de uma classe e as pontuações de confiança correspondentes.
O divisor não foi projetado para dividir documentos lógicos com mais de 30 páginas. Documentos lógicos com mais de 30 páginas (por exemplo, um extrato bancário de 40 páginas) podem ser divididos em dois ou mais documentos e classificados separadamente.
Os divisores identificam os limites da página, mas não dividem o documento de entrada. O SDK Document AI Toolbox oferece funções utilitárias que podem dividir o documento de entrada com base na saída de um processador de divisão.
Recomendamos que as previsões de divisão sejam revisadas por humanos antes da divisão real de arquivos, a menos que seja comprovada uma precisão aceitável para as necessidades comerciais.
Tipos de documentos identificados
Esta seção detalha as classes de documentos reconhecidas pelos processadores de divisão pré-treinados.
[1] O analisador correspondente a este formulário não é compatível com esse tipo de documento. Isso significa que o divisor pode identificar e classificar documentos desse tipo, mas a Document AI não oferece um analisador para extrair informações.
Exemplos de saída
Processadores | Exemplos de saída |
---|
Exemplos de código
Os divisores identificam os limites da página, mas não dividem o documento de entrada para você. É possível usar o Document AI Toolbox para dividir fisicamente um arquivo PDF usando os limites de página. Os exemplos de código a seguir imprimem os intervalos de páginas sem dividir o PDF:
Java
Para mais informações, consulte a documentação de referência da API Java da Document AI.
Para autenticar na Document AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para mais informações, consulte a documentação de referência da API Node.js da Document AI.
Para autenticar na Document AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para mais informações, consulte a documentação de referência da API Python da Document AI.
Para autenticar na Document AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Document
processado.
Python
Para mais informações, consulte a documentação de referência da API Python da Document AI.
Para autenticar na Document AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.