Comportement des séparateurs
La sortie du processeur de fractionnement contient des informations de fractionnement pour le document d'entrée, y compris un score de confiance. L'API Document AI génère un objet JSON Document
, et le format de sortie utilise le champ entities
pour représenter les fractionnements de documents. Les informations supplémentaires dépendent du type de séparateur spécifique.
Entity.type
spécifie la classification des documents. Pour obtenir la liste complète des types de documents pouvant être identifiés, consultez les listes suivantes.Entity.pageAnchor.pageRefs[]
spécifie les pages contenant chaque sous-document. Notez quepageRefs[].page
est basé sur zéro et qu'il s'agit de l'indice du champdocument.pages[]
.
Voici une réponse de séparateur JSON typique pour un document reconnu, indiquant un document de classe form_140
sur les deuxième et troisième pages du fichier d'entrée:
{
"textAnchor": {
"textSegments": [
{
"startIndex": "5543",
"endIndex": "10470"
}
]
},
"type": "form_1040",
"confidence": 0.8983272,
"pageAnchor": {
"pageRefs": [
{
"page": "1",
"confidence": 0.8983272
},
{
"page": "2",
"confidence": 0.9636311
}
]
}
},
Contrairement au classificateur personnalisé, les séparateurs ne fournissent pas plusieurs classes et leurs scores de confiance.
Le séparateur n'est pas conçu pour diviser des documents logiques de plus de 30 pages. Les documents logiques de plus de 30 pages (par exemple, un relevé bancaire de 40 pages) peuvent être divisés en deux ou plusieurs documents et classés séparément.
Les séparateurs identifient les limites de page, mais ne séparent pas le document d'entrée. Le SDK Document AI Toolbox fournit des fonctions utilitaires qui peuvent diviser le document d'entrée en fonction de la sortie d'un processeur de division.
Nous vous recommandons vivement de faire examiner les prédictions de fractionnement par des humains avant le fractionnement réel des fichiers, sauf si elles ont prouvé être d'une précision acceptable pour les besoins métier.
Types de documents identifiés
Cette section détaille les classes de documents reconnues par les processeurs de séparateur pré-entraînés.
[1] L'analyseur correspondant à ce formulaire n'est pas compatible avec ce type de document. Cela signifie que le séparateur peut identifier et classer les documents de ce type, mais Document AI ne fournit pas d'analyseur pour extraire des informations.
Exemples de sorties
Processeurs | Exemples de sortie |
---|
Exemples de code
Les séparateurs identifient les limites de page, mais ne séparent pas réellement le document d'entrée. Vous pouvez utiliser la boîte à outils Document AI pour diviser physiquement un fichier PDF à l'aide des limites de page. Les exemples de code suivants impriment les plages de pages sans diviser le fichier PDF:
Java
Pour en savoir plus, consultez la documentation de référence de l'API Document AI Java.
Pour vous authentifier auprès de Document AI, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Pour en savoir plus, consultez la documentation de référence de l'API Document AI Node.js.
Pour vous authentifier auprès de Document AI, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour en savoir plus, consultez la documentation de référence de l'API Document AI Python.
Pour vous authentifier auprès de Document AI, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Document
traité.
Python
Pour en savoir plus, consultez la documentation de référence de l'API Document AI Python.
Pour vous authentifier auprès de Document AI, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.