Verhalten von Splittern
Die Ausgabe des Splitter-Prozessors enthält Informationen zur Aufteilung des Eingabedokuments, einschließlich einer Konfidenzbewertung. Die Document AI API gibt ein Document
-JSON-Objekt aus. Im Ausgabeformat wird das Feld entities
verwendet, um Dokumentaufteilungen darzustellen. Zusätzliche Informationen hängen vom jeweiligen Splittertyp ab.
Entity.type
gibt die Dokumentklassifikation an. Eine vollständige Liste der Dokumenttypen, die erkannt werden können, finden Sie in den folgenden Listen.Mit
Entity.pageAnchor.pageRefs[]
werden die Seiten angegeben, die die einzelnen Unterdokumente enthalten. Beachten Sie, dasspageRefs[].page
auf null basiert und der Index im Felddocument.pages[]
ist.
Hier ist eine typische JSON-Splitterantwort für ein erkanntes Dokument, das ein Dokument der Klasse form_140
auf der zweiten und dritten Seite der Eingabedatei angibt:
{
"textAnchor": {
"textSegments": [
{
"startIndex": "5543",
"endIndex": "10470"
}
]
},
"type": "form_1040",
"confidence": 0.8983272,
"pageAnchor": {
"pageRefs": [
{
"page": "1",
"confidence": 0.8983272
},
{
"page": "2",
"confidence": 0.9636311
}
]
}
},
Im Gegensatz zu benutzerdefinierten Klassifizierern geben Sie mit einem Splitter nicht mehr als eine Klasse und die zugehörigen Konfidenzwerte an.
Der Splitter ist nicht für die Aufteilung logischer Dokumente mit mehr als 30 Seiten vorgesehen. Logische Dokumente, die mehr als 30 Seiten lang sind (z. B. ein 40-seitiger Kontoauszug), können in zwei oder mehr Dokumente aufgeteilt und separat klassifiziert werden.
Trennzeichen identifizieren Seitengrenzen, teilen das Eingabedokument aber nicht für Sie. Das Document AI Toolbox SDK bietet Dienstprogrammfunktionen, mit denen das Eingabedokument anhand der Ausgabe eines Trennprozessors aufgeteilt werden kann.
Wir empfehlen dringend, die Vorhersagen vor der tatsächlichen Dateiaufteilung von Menschen überprüfen zu lassen, es sei denn, sie haben eine für die Geschäftsanforderungen akzeptable Genauigkeit.
Erkannte Dokumenttypen
In diesem Abschnitt werden die Dokumentklassen beschrieben, die von vorab trainierten Splitter-Prozessoren erkannt werden.
[1] Der entsprechende Parser für dieses Formular unterstützt diesen Dokumenttyp nicht. Das bedeutet, dass der Splitter Dokumente dieses Typs erkennen und klassifizieren kann, Document AI jedoch keinen Parser zum Extrahieren von Informationen bereitstellt.
Ausgabebeispiele
Prozessoren | Ausgabebeispiele |
---|
Codebeispiele
Trennzeichen identifizieren Seitengrenzen, teilen das Eingabedokument aber nicht für Sie. Mit der Document AI Toolbox können Sie eine PDF-Datei anhand der Seitenränder physisch aufteilen. In den folgenden Codebeispielen werden die Seitenbereiche gedruckt, ohne die PDF-Datei aufzuteilen:
Java
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Java API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Node.js API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Document
aufzuteilen.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.