La salida del procesador Splitter contiene información sobre la división del documento de entrada, incluida una puntuación de confianza. La API Document AI genera un objeto JSON Document
y el formato de salida usa el campo entities
para representar las divisiones de documentos. La información adicional depende del tipo de divisor específico.
Entity.type
especifica la clasificación del documento. Para ver una lista completa de los tipos de documentos que se pueden identificar, consulta las siguientes listas.Entity.pageAnchor.pageRefs[]
especifica las páginas que contienen cada subdocumento. Ten en cuenta quepageRefs[].page
se basa en cero y es el índice del campodocument.pages[]
.
A continuación, se muestra una respuesta típica del separador JSON para un documento reconocido, que indica un documento de clase form_140
en la segunda y tercera páginas del archivo de entrada:
{
"textAnchor": {
"textSegments": [
{
"startIndex": "5543",
"endIndex": "10470"
}
]
},
"type": "form_1040",
"confidence": 0.8983272,
"pageAnchor": {
"pageRefs": [
{
"page": "1",
"confidence": 0.8983272
},
{
"page": "2",
"confidence": 0.9636311
}
]
}
},
A diferencia de los clasificadores personalizados, los divisores no proporcionan más de una clase y sus puntuaciones de confianza.
El separador no está diseñado para dividir documentos lógicos de más de 30 páginas. Los documentos lógicos de más de 30 páginas (por ejemplo, un extracto bancario de 40 páginas) pueden dividirse en dos o más documentos y clasificarse por separado.
Los divisores identifican los límites de las páginas, pero no dividen el documento de entrada. El SDK Document AI Toolbox proporciona funciones de utilidad que pueden dividir el documento de entrada en función de la salida de un procesador de división.
Te recomendamos que las predicciones de división las revisen personas antes de dividir los archivos, a menos que se demuestre que tienen una precisión aceptable para las necesidades de la empresa.
Tipos de documentos identificados
En esta sección se detallan las clases de documentos que reconocen los procesadores de separador preentrenados.
[1] El analizador correspondiente a este formulario no admite este tipo de documento. Esto significa que el divisor puede identificar y clasificar documentos de este tipo, pero Document AI no proporciona un analizador para extraer información.
Ejemplos de salida
Procesadores | Ejemplos de salida |
---|
Códigos de ejemplo
Los divisores identifican los límites de las páginas, pero no dividen el documento de entrada. Puedes usar Document AI Toolbox para dividir físicamente un archivo PDF usando los límites de las páginas. En los siguientes ejemplos de código se imprimen los intervalos de páginas sin dividir el PDF:
Java
Para obtener más información, consulta la documentación de referencia de la API Java de Document AI.
Para autenticarte en Document AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para obtener más información, consulta la documentación de referencia de la API Node.js de Document AI.
Para autenticarte en Document AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para obtener más información, consulta la documentación de referencia de la API Python de Document AI.
Para autenticarte en Document AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Document
procesado.
Python
Para obtener más información, consulta la documentación de referencia de la API Python de Document AI.
Para autenticarte en Document AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.