Verarbeitungsantwort verarbeiten
Die Antwort auf eine Verarbeitungsanfrage enthält ein Document
-Objekt mit allen bekannten Informationen zum verarbeiteten Dokument, einschließlich aller strukturierten Informationen, die mit Document AI extrahiert werden konnten.
Auf dieser Seite wird das Layout des Document
-Objekts erläutert. Dazu werden Beispieldokumente bereitgestellt und Aspekte der OCR-Ergebnisse den jeweiligen Elementen des Document
-Objekts in JSON zugeordnet.
Außerdem finden Sie hier Codebeispiele für Clientbibliotheken und das Document AI Toolbox SDK.
In diesen Codebeispielen wird die Onlineverarbeitung verwendet, das Parsen von Document
-Objekten funktioniert jedoch auch bei der Batchverarbeitung gleich.
Verwenden Sie einen JSON-Betrachter oder ein Bearbeitungstool, das speziell zum Maximieren oder Minimieren von Elementen entwickelt wurde. Die Überprüfung von Roh-JSON in einem Tool für Nur-Text ist ineffizient.
Text-, Layout- und Qualitätsbewertungen
Hier ein Beispiel für ein Textdokument:
Hier ist das vollständige Dokumentobjekt, das vom Enterprise Document OCR-Prozessor zurückgegeben wird:
Diese OCR-Ausgabe ist auch immer in der Ausgabe des Document AI-Prozessors enthalten, da die OCR von den Prozessoren ausgeführt wird. Dabei werden die vorhandenen OCR-Daten verwendet. Deshalb können Sie solche JSON-Daten über die Option „Inline-Dokument“ in Document AI-Prozessoren eingeben.
image=None, # all our samples pass this var
mime_type="application/json",
inline_document=document_response # pass OCR output to CDE input - undocumented
Hier sind einige der wichtigsten Felder:
Rohtext
Das Feld text
enthält den Text, der von Document AI erkannt wird.
Dieser Text enthält keine andere Layoutstruktur als Leerzeichen, Tabulatoren und Zeilenumbrüche. In diesem Feld werden die Textinformationen eines Dokuments gespeichert. Es dient als „Source of Truth“ für den Text des Dokuments. Andere Felder können sich anhand der Position (startIndex
und endIndex
) auf Teile des Textfelds beziehen.
{
text: "Sample Document\nHeading 1\nLorem ipsum dolor sit amet, ..."
}
Seitengröße und Sprachen
Jedes page
im Dokumentobjekt entspricht einer physischen Seite aus dem Beispieldokument. Die Beispiel-JSON-Ausgabe enthält eine Seite, da es sich um ein einzelnes PNG-Bild handelt.
{
"pages:" [
{
"pageNumber": 1,
"dimension": {
"width": 679.0,
"height": 460.0,
"unit": "pixels"
},
}
]
}
- Das Feld
pages[].detectedLanguages[]
enthält die auf einer bestimmten Seite gefundenen Sprachen sowie den Konfidenzwert.
{
"pages": [
{
"detectedLanguages": [
{
"confidence": 0.98009938,
"languageCode": "en"
},
{
"confidence": 0.01990064,
"languageCode": "und"
}
]
}
]
}
OCR-Daten
Die Document AI-OCR erkennt Text mit unterschiedlicher Detaillierung oder Organisation auf der Seite, z. B. Textblöcke, Absätze, Tokens und Symbole. Die Symbolebene ist optional, wenn sie für die Ausgabe von Daten auf Symbolebene konfiguriert ist. Dies sind alle Mitglieder des Seitenobjekts.
Jedes Element hat ein entsprechendes layout
, das seine Position und seinen Text beschreibt. Visuelle Elemente ohne Text (z. B. Kästchen) befinden sich ebenfalls auf Seitenebene.
{
"pages": [
{
"paragraphs": [
{
"layout": {
"textAnchor": {
"textSegments": [
{
"endIndex": "16"
}
]
},
"confidence": 0.9939527,
"boundingPoly": {
"vertices": [ ... ],
"normalizedVertices": [ ... ]
},
"orientation": "PAGE_UP"
}
}
]
}
]
}
Auf den Rohtext wird im textAnchor
-Objekt verwiesen, das mit startIndex
und endIndex
im Haupttextstring indexiert wird.
Bei
boundingPoly
ist die linke obere Ecke der Seite der Ursprung(0,0)
. Positive X-Werte sind nach rechts und positive Y-Werte nach unten ausgerichtet.Für das
vertices
-Objekt werden dieselben Koordinaten wie für das Originalbild verwendet, währendnormalizedVertices
im Bereich[0,1]
liegt. Es gibt eine Transformationsmatrix, die die Maßnahmen zur Entzerrung und andere Attribute der Normalization des Bildes angibt.
- Zeichnen Sie zum Zeichnen des
boundingPoly
Liniensegmente von einem Eckpunkt zum nächsten. Schließen Sie dann das Polygon, indem Sie ein Liniensegment vom letzten zum ersten Eckpunkt ziehen. Mit dem Layoutelement Ausrichtung wird angegeben, ob der Text relativ zur Seite gedreht wurde.
Um die Struktur des Dokuments besser zu visualisieren, sind in den folgenden Bildern Begrenzungspolygone für page.paragraphs
, page.lines
und page.tokens
zu sehen.
Absätze
Linien
Tokens
Blöcke
Der Enterprise Document OCR-Prozessor kann die Qualität eines Dokuments anhand seiner Lesbarkeit bewerten.
- Sie müssen das Feld
processOptions.ocrConfig.enableImageQualityScores
auftrue
festlegen, um diese Daten in der API-Antwort zu erhalten.
Diese Qualitätsbewertung ist ein Qualitätsfaktor in [0, 1]
, wobei 1
für perfekte Qualität steht.
Der Qualitätsfaktor wird im Feld Page.imageQualityScores
zurückgegeben.
Alle erkannten Mängel werden als quality/defect_*
aufgeführt und absteigend nach Konfidenzwert sortiert.
Hier ist eine PDF-Datei, die zu dunkel und verschwommen ist, um sie bequem lesen zu können:
Hier sind die Informationen zur Dokumentqualität, die vom Enterprise Document OCR-Prozessor zurückgegeben werden:
{
"pages": [
{
"imageQualityScores": {
"qualityScore": 0.7811847,
"detectedDefects": [
{
"type": "quality/defect_document_cutoff",
"confidence": 1.0
},
{
"type": "quality/defect_glare",
"confidence": 0.97849524
},
{
"type": "quality/defect_text_cutoff",
"confidence": 0.5
}
]
}
}
]
}
Codebeispiele
Die folgenden Codebeispiele zeigen, wie Sie eine Verarbeitungsanfrage senden und dann die Felder lesen und im Terminal ausdrucken:
Java
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Java API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Node.js API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Formulare und Tabellen
Hier ist ein Beispielformular:
Hier ist das vollständige Dokumentobjekt, wie es vom Formular-Parser zurückgegeben wird:
Hier sind einige der wichtigsten Felder:
Der Formular-Parser kann FormFields
auf der Seite erkennen. Jedes Formularfeld hat einen Namen und einen Wert. Sie werden auch als Schlüssel/Wert-Paare (KVP) bezeichnet. KVP unterscheiden sich von (Schema-)Entitäten in anderen Extraktoren:
Entitätsnamen sind konfiguriert. Die Schlüssel in KVPs sind der Schlüsseltext im Dokument.
{
"pages:" [
{
"formFields": [
{
"fieldName": { ... },
"fieldValue": { ... }
}
]
}
]
}
- Die Dokument-KI kann auch
Tables
auf der Seite erkennen.
{
"pages:" [
{
"tables": [
{
"layout": { ... },
"headerRows": [
{
"cells": [
{
"layout": { ... },
"rowSpan": 1,
"colSpan": 1
},
{
"layout": { ... },
"rowSpan": 1,
"colSpan": 1
}
]
}
],
"bodyRows": [
{
"cells": [
{
"layout": { ... },
"rowSpan": 1,
"colSpan": 1
},
{
"layout": { ... },
"rowSpan": 1,
"colSpan": 1
}
]
}
]
}
]
}
]
}
Die Tabellenextraktion im Formular-Parser erkennt nur einfache Tabellen, also Tabellen ohne Zellen, die Zeilen oder Spalten überspannen. Daher sind rowSpan
und colSpan
immer 1
.
Ab Prozessorversion
pretrained-form-parser-v2.0-2022-11-10
kann der Formularparser auch generische Entitäten erkennen. Weitere Informationen finden Sie unter Formular-Parser.Zur besseren Visualisierung der Struktur des Dokuments sind in den folgenden Bildern Begrenzungspolygone für
page.formFields
undpage.tables
dargestellt.Kästchen in Tabellen Der Formular-Parser kann Kästchen aus Bildern und PDFs als KVPs digitalisieren. Beispiel für die Digitalisierung von Kästchen als Schlüssel/Wert-Paar
Außerhalb von Tabellen werden Kästchen im Form Parser als visuelle Elemente dargestellt. Die quadratischen Kästchen mit Häkchen in der Benutzeroberfläche und das Unicode-Zeichen ✓ in der JSON-Datei werden hervorgehoben.
"pages:" [
{
"tables": [
{
"layout": { ... },
"headerRows": [
{
"cells": [
{
"layout": { ... },
"rowSpan": 1,
"colSpan": 1
},
{
"layout": { ... },
"rowSpan": 1,
"colSpan": 1
}
]
}
],
"bodyRows": [
{
"cells": [
{
"layout": { ... },
"rowSpan": 1,
"colSpan": 1
},
{
"layout": { ... },
"rowSpan": 1,
"colSpan": 1
}
]
}
]
}
]
}
]
}
In Tabellen werden Kästchen als Unicode-Zeichen wie ✓ (angeklickt) oder ☐ (deaktiviert) angezeigt.
Die angeklickten Kästchen haben den Wert filled_checkbox:
under pages > x > formFields > x > fieldValue > valueType.
. Die nicht angeklickten Kästchen haben den Wert unfilled_checkbox
.
In den Inhaltsfeldern ist der Inhalt des Kästchens im Pfad pages>formFields>x>fieldValue>textAnchor>content
als hervorgehobenes Kästchen ✓ zu sehen.
Zur Veranschaulichung der Struktur des Dokuments sind in den folgenden Bildern Begrenzungspolygone für page.formFields
und page.tables
zu sehen.
Formularfelder
Tabellen
Codebeispiele
Die folgenden Codebeispiele zeigen, wie Sie eine Verarbeitungsanfrage senden und dann die Felder lesen und im Terminal ausdrucken:
Java
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Java API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Node.js API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Entitäten, verschachtelte Entitäten und normalisierte Werte
Viele der spezialisierten Prozessoren extrahieren strukturierte Daten, die auf einem klar definierten Schema basieren. Der Rechnungsparser erkennt beispielsweise bestimmte Felder wie invoice_date
und supplier_name
. Hier ist eine Beispielrechnung:
Hier ist das vollständige Dokumentobjekt, das vom Rechnungsparser zurückgegeben wird:
Hier sind einige wichtige Teile des Dokumentobjekts:
Erkannte Felder:
Entities
enthält die Felder, die der Prozessor erkennen konnte, z. B.invoice_date
:{ "entities": [ { "textAnchor": { "textSegments": [ { "startIndex": "14", "endIndex": "24" } ], "content": "2020/01/01" }, "type": "invoice_date", "confidence": 0.9938466, "pageAnchor": { ... }, "id": "2", "normalizedValue": { "text": "2020-01-01", "dateValue": { "year": 2020, "month": 1, "day": 1 } } } ] }
Bei bestimmten Feldern normalisiert der Prozessor den Wert auch. In diesem Beispiel wurde das Datum von
2020/01/01
auf2020-01-01
normalisiert.Normalisierung: Bei vielen unterstützten Feldern normalisiert der Prozessor den Wert und gibt auch einen
entity
zurück. Das FeldnormalizedValue
wird dem Rohextrahierten Feld hinzugefügt, das über dietextAnchor
der einzelnen Entitäten abgerufen wurde. So wird der Literaltext normalisiert und der Textwert wird oft in Unterfelder unterteilt. Ein Datum wie der 1. September 2024 würde beispielsweise so dargestellt:
normalizedValue": {
"text": "2020-09-01",
"dateValue": {
"year": 2024,
"month": 9,
"day": 1
}
In diesem Beispiel wurde das Datum von 2020-01-01 in 2020-01-01 normalisiert. Das ist ein standardisiertes Format, das die Nachbearbeitung reduziert und die Umwandlung in das ausgewählte Format ermöglicht.
Adressen werden auch häufig normalisiert, wodurch die Elemente der Adresse in einzelne Felder unterteilt werden. Zahlen werden normalisiert, indem als normalizedValue
eine Ganzzahl oder eine Gleitkommazahl verwendet wird.
- Anreicherung: Bestimmte Prozessoren und Felder unterstützen auch die Anreicherung.
Beispiel: Das ursprüngliche
supplier_name
im DokumentGoogle Singapore
wurde anhand des Enterprise Knowledge Graph inGoogle Asia Pacific, Singapore
normalisiert. Da der Enterprise Knowledge Graph Informationen zu Google enthält, leitet Document AI diesupplier_address
ab, obwohl sie im Beispieldokument nicht vorhanden war.
{
"entities": [
{
"textAnchor": {
"textSegments": [ ... ],
"content": "Google Singapore"
},
"type": "supplier_name",
"confidence": 0.39170802,
"pageAnchor": { ... },
"id": "12",
"normalizedValue": {
"text": "Google Asia Pacific, Singapore"
}
},
{
"type": "supplier_address",
"id": "17",
"normalizedValue": {
"text": "70 Pasir Panjang Rd #03-71 Mapletree Business City II Singapore 117371",
"addressValue": {
"regionCode": "SG",
"languageCode": "en-US",
"postalCode": "117371",
"addressLines": [
"70 Pasir Panjang Rd",
"#03-71 Mapletree Business City II"
]
}
}
}
]
}
Verschachtelte Felder: Verschachtelte Schemas (Felder) können erstellt werden, indem Sie zuerst eine Entität als übergeordnetes Element deklarieren und dann untergeordnete Entitäten unter dem übergeordneten Element erstellen. Die Parseantwort für das übergeordnete Element enthält die untergeordneten Felder im
properties
-Element des übergeordneten Felds. Im folgenden Beispiel istline_item
ein übergeordnetes Feld mit zwei untergeordneten Feldern:line_item/description
undline_item/quantity
.{ "entities": [ { "textAnchor": { ... }, "type": "line_item", "confidence": 1.0, "pageAnchor": { ... }, "id": "19", "properties": [ { "textAnchor": { "textSegments": [ ... ], "content": "Tool A" }, "type": "line_item/description", "confidence": 0.3461604, "pageAnchor": { ... }, "id": "20" }, { "textAnchor": { "textSegments": [ ... ], "content": "500" }, "type": "line_item/quantity", "confidence": 0.8077843, "pageAnchor": { ... }, "id": "21", "normalizedValue": { "text": "500" } } ] } ] }
Die folgenden Parser folgen diesem Standard:
- Extrahieren (benutzerdefinierter Extrahierer)
- Legacy
- Kontoauszugsparser
- Kostenparser
- Rechnungsparser
- PaySlip-Parser
- W2-Parser
Codebeispiele
Die folgenden Codebeispiele zeigen, wie Sie eine Verarbeitungsanfrage senden und dann die Felder aus einem speziellen Prozessor lesen und auf dem Terminal ausdrucken:
Java
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Java API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Node.js API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Benutzerdefinierter Dokumentextraktor
Mit dem Benutzerdefinierten Dokumentextraktor-Prozessor können benutzerdefinierte Entitäten aus Dokumenten extrahiert werden, für die kein vortrainierter Prozessor verfügbar ist. Das kann durch Training eines benutzerdefinierten Modells oder durch Verwendung von Foundation Models für generative KI erfolgen, um benannte Entitäten ohne Training zu extrahieren. Weitere Informationen finden Sie unter Benutzerdefinierten Dokumentextraktor in der Console erstellen.
- Wenn Sie ein benutzerdefiniertes Modell trainieren, kann der Prozessor genau wie ein vortrainierter Prozessor zur Entitätsextraktion verwendet werden.
- Wenn Sie ein Grundlagenmodell verwenden, können Sie eine Prozessorversion erstellen, um für jede Anfrage bestimmte Entitäten zu extrahieren. Sie können sie auch pro Anfrage konfigurieren.
Informationen zur Ausgabestruktur finden Sie unter Entitäten, verschachtelte Entitäten und normalisierte Werte.
Codebeispiele
Wenn Sie ein benutzerdefiniertes Modell verwenden oder eine Prozessorversion mit einem Grundlagenmodell erstellt haben, verwenden Sie die Codebeispiele für die Entitätsextraktion.
Das folgende Codebeispiel zeigt, wie Sie bestimmte Entitäten für einen benutzerdefinierten Dokumenten-Extractor eines Grundmodells pro Anfrage konfigurieren und die extrahierten Entitäten drucken:
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Zusammenfassung
Der Zusammenfassungsprozessor verwendet Foundation Models für die generative KI, um den aus einem Dokument extrahierten Text zusammenzufassen. Länge und Format der Antwort können so angepasst werden:
- Länge
BRIEF
: Eine kurze Zusammenfassung in einem oder zwei SätzenMODERATE
: Eine Zusammenfassung in einem AbsatzCOMPREHENSIVE
: Die längste verfügbare Option
- Format
Sie können entweder eine Prozessorversion für eine bestimmte Länge und ein bestimmtes Format erstellen oder sie pro Anfrage konfigurieren.
Der zusammengefasste Text wird in Document.entities.normalizedValue.text
angezeigt. Eine vollständige Beispielausgabe im JSON-Format finden Sie unter Beispiel für die Prozessorausgabe.
Weitere Informationen finden Sie unter In der Console einen Dokumentzusammenfassungsdienst erstellen.
Codebeispiele
Das folgende Codebeispiel zeigt, wie Sie eine bestimmte Länge und ein bestimmtes Format in einer Verarbeitungsanfrage konfigurieren und den zusammengefassten Text drucken:
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Aufteilung und Klassifizierung
Hier ist eine 10-seitige PDF-Datei mit verschiedenen Dokument- und Formulartypen:
Hier ist das vollständige Dokumentobjekt, das vom Lending Document-Splitter und -Klassifikator zurückgegeben wird:
Jedes Dokument, das vom Splitter erkannt wird, wird durch eine entity
dargestellt. Beispiel:
{
"entities": [
{
"textAnchor": {
"textSegments": [
{
"startIndex": "13936",
"endIndex": "21108"
}
]
},
"type": "1040se_2020",
"confidence": 0.76257163,
"pageAnchor": {
"pageRefs": [
{
"page": "6"
},
{
"page": "7"
}
]
}
}
]
}
Entity.pageAnchor
gibt an, dass dieses Dokument 2 Seiten lang ist. Beachten Sie, dasspageRefs[].page
nullbasiert ist und der Index für das Felddocument.pages[]
ist.Entity.type
gibt an, dass dieses Dokument ein 1040-Schedule-SE-Formular ist. Eine vollständige Liste der Dokumenttypen, die erkannt werden können, finden Sie in der Dokumentation des Prozessors unter Erkennte Dokumenttypen.
Weitere Informationen finden Sie unter Verhalten von Dokumenten-Splittern.
Codebeispiele
Trennzeichen identifizieren Seitengrenzen, teilen das Eingabedokument aber nicht für Sie. Mit der Document AI Toolbox können Sie eine PDF-Datei anhand der Seitenränder physisch aufteilen. In den folgenden Codebeispielen werden die Seitenbereiche gedruckt, ohne die PDF-Datei aufzuteilen:
Java
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Java API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Node.js API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Document
aufzuteilen.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Document AI Toolbox
Die Document AI Toolbox ist ein SDK für Python, das Dienstfunktionen zum Verwalten, Manipulieren und Extrahieren von Informationen aus der Dokumentantwort bietet.
Es erstellt ein „verpacktes“ Dokumentobjekt aus einer verarbeiteten Antwort auf eine Dokumentanfrage aus JSON-Dateien in Cloud Storage, lokalen JSON-Dateien oder direkt aus der process_document()
-Methode.
Sie kann die folgenden Aktionen ausführen:
- Fragmentierte
Document
JSON-Dateien aus der Batchverarbeitung in einem einzigen „verpackten“ Dokument kombinieren. - Shards als einheitliche
Document
exportieren -
Document
-Ausgabe von folgenden Quellen abrufen: - Sie können auf Text von
Pages
,Lines
,Paragraphs
,FormFields
undTables
zugreifen, ohneLayout
-Informationen zu verarbeiten. - Nach einem
Pages
suchen, das einen Zielstring enthält oder mit einem regulären Ausdruck übereinstimmt. - Suchen Sie nach
FormFields
. - Suche nach
Entities
nach Typ. - Konvertieren Sie
Tables
in einen Pandas-DataFrame oder eine CSV-Datei. - Fügen Sie
Entities
undFormFields
in eine BigQuery-Tabelle ein. - Eine PDF-Datei anhand der Ausgabe eines Splitters/Klassifikators teilen
- Extrahieren Sie das Bild
Entities
aus den Begrenzungsrahmen vonDocument
. -
Documents
in und aus gängigen Formaten konvertieren:- Cloud Vision API
AnnotateFileResponse
- hOCR
- Formate für die Dokumentverarbeitung von Drittanbietern
- Cloud Vision API
- Sie können aus einem Cloud Storage-Ordner Stapel von Dokumenten zur Verarbeitung erstellen.
Codebeispiele
Die folgenden Codebeispiele zeigen, wie die Document AI Toolbox verwendet wird.