Die Ausgabe des Splitter-Prozessors enthält Informationen zur Aufteilung des Eingabedokuments, einschließlich einer Vertrauensbewertung. Die Document AI API gibt ein Document
-JSON-Objekt aus. Im Ausgabeformat wird das Feld entities
verwendet, um Dokumentaufteilungen darzustellen. Zusätzliche Informationen hängen vom jeweiligen Splittertyp ab.
Entity.type
gibt die Dokumentklassifizierung an. Eine vollständige Liste der Dokumenttypen, die erkannt werden können, finden Sie in diesen Listen.Entity.pageAnchor.pageRefs[]
gibt die Seiten an, die die einzelnen untergeordneten Dokumente enthalten.pageRefs[].page
ist nullbasiert und der Index für das Felddocument.pages[]
.
Hier sehen Sie eine typische JSON-Splitter-Antwort für ein erkanntes Dokument, die ein Dokument der Klasse form_140
auf der zweiten und dritten Seite der Eingabedatei angibt:
{
"textAnchor": {
"textSegments": [
{
"startIndex": "5543",
"endIndex": "10470"
}
]
},
"type": "form_1040",
"confidence": 0.8983272,
"pageAnchor": {
"pageRefs": [
{
"page": "1",
"confidence": 0.8983272
},
{
"page": "2",
"confidence": 0.9636311
}
]
}
},
Im Gegensatz zu benutzerdefinierten Klassifizierern geben Splitter nicht mehr als eine Klasse und die zugehörigen Konfidenzwerte zurück.
Der Splitter ist nicht dafür konzipiert, logische Dokumente mit mehr als 30 Seiten aufzuteilen. Logische Dokumente mit mehr als 30 Seiten (z. B. ein 40-seitiger Kontoauszug) können in zwei oder mehr Dokumente aufgeteilt und separat klassifiziert werden.
Trennzeichen kennzeichnen Seitenränder, teilen das Eingabedokument aber nicht tatsächlich auf. Das Document AI Toolbox SDK bietet Dienstfunktionen, mit denen das Eingabedokument basierend auf der Ausgabe eines Splitterprozessors aufgeteilt werden kann.
Es wird dringend empfohlen, geteilte Vorhersagen von Menschen überprüfen zu lassen, bevor die Dateien tatsächlich aufgeteilt werden, es sei denn, die Vorhersagen haben sich als für die geschäftlichen Anforderungen ausreichend genau erwiesen.
Erkannte Dokumenttypen
In diesem Abschnitt werden die Dokumentklassen beschrieben, die von vortrainierten Splitterprozessoren erkannt werden.
[1] Der entsprechende Parser für dieses Formular unterstützt diesen Dokumenttyp nicht. Das bedeutet, dass der Splitter Dokumente dieses Typs identifizieren und klassifizieren kann, Document AI aber keinen Parser zum Extrahieren von Informationen bereitstellt.
Ausgabebeispiele
Prozessoren | Ausgabebeispiele |
---|
Codebeispiele
Trennzeichen identifizieren Seitenränder, teilen das Eingabedokument aber nicht tatsächlich auf. Mit der Document AI Toolbox können Sie eine PDF-Datei anhand der Seitenränder physisch aufteilen. In den folgenden Codebeispielen werden die Seitenbereiche ausgegeben, ohne die PDF-Datei aufzuteilen:
Java
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Java API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Node.js API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Document
aufzuteilen.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.