A saída do processador de divisão contém informações de divisão para o documento de entrada, incluindo uma pontuação de confiança. A API Document AI gera um objeto JSON Document
, e o formato de saída usa o campo entities
para representar divisões de documentos. As informações adicionais dependem do tipo específico de separador.
Entity.type
especifica a classificação do documento. Para ver uma lista completa dos tipos de documentos que podem ser identificados, consulte as listas seguintes.Entity.pageAnchor.pageRefs[]
especifica as páginas que contêm cada subdocumento. Tenha em atenção quepageRefs[].page
baseia-se em zero e é o índice no campodocument.pages[]
.
Segue-se uma resposta típica do separador JSON para um documento reconhecido, que indica um documento de classe form_140
nas páginas segunda e terceira do ficheiro de entrada:
{
"textAnchor": {
"textSegments": [
{
"startIndex": "5543",
"endIndex": "10470"
}
]
},
"type": "form_1040",
"confidence": 0.8983272,
"pageAnchor": {
"pageRefs": [
{
"page": "1",
"confidence": 0.8983272
},
{
"page": "2",
"confidence": 0.9636311
}
]
}
},
Ao contrário do classificador personalizado, os divisores não fornecem mais do que uma classe e as respetivas pontuações de confiança.
O divisor não foi concebido para dividir documentos lógicos com mais de 30 páginas. Os documentos lógicos com mais de 30 páginas (por exemplo, um extrato bancário de 40 páginas) podem ser divididos em dois ou mais documentos e classificados separadamente.
Os divisores identificam os limites das páginas, mas não dividem efetivamente o documento de entrada. O SDK Document AI Toolbox fornece funções de utilidade que podem dividir o documento de entrada com base no resultado de um processador divisor.
Recomendamos vivamente que as previsões de divisão sejam revistas por humanos antes da divisão real dos ficheiros, a menos que se provem ter uma precisão aceitável para as necessidades da empresa.
Tipos de documentos identificados
Esta secção detalha as classes de documentos reconhecidas pelos processadores de divisão pré-formados.
[1] O analisador correspondente para este formulário não suporta este tipo de documento. Isto significa que o separador pode identificar e classificar documentos deste tipo, mas a IA Documentos não fornece um analisador para extrair informações.
Exemplos de resultados
Processadores | Exemplos de saída |
---|
Exemplos de código
Os divisores identificam os limites das páginas, mas não dividem o documento de entrada para si. Pode usar a caixa de ferramentas da Document AI para dividir fisicamente um ficheiro PDF usando os limites das páginas. Os seguintes exemplos de código imprimem os intervalos de páginas sem dividir o PDF:
Java
Para mais informações, consulte a documentação de referência da API Java Document AI.
Para se autenticar no Document AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Para mais informações, consulte a documentação de referência da API Node.js Document AI.
Para se autenticar no Document AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para mais informações, consulte a documentação de referência da API Python Document AI.
Para se autenticar no Document AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Document
processado.
Python
Para mais informações, consulte a documentação de referência da API Python Document AI.
Para se autenticar no Document AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.