Dokumente mit dem Layout-Parser verarbeiten
Der Layoutparser extrahiert Dokumentinhaltselemente wie Text, Tabellen und Listen und erstellt kontextsensitive Blöcke, die das Abrufen von Informationen in Anwendungen für generative KI und Discovery erleichtern.
Layoutparser-Funktionen
Dokumentlayouts parsen: Sie können HTML- oder PDF-Dateien in Layout Parser eingeben, um Inhaltselemente wie Textblöcke, Tabellen, Listen und strukturelle Elemente wie Titel und Überschriften zu identifizieren. Diese Elemente tragen dazu bei, die Organisation und Hierarchie eines Dokuments mit Rich Content und Strukturelementen zu definieren, die mehr Kontext für das Abrufen und Auffinden von Informationen schaffen können.
Dokumente in Chunks aufteilen: Mit Layout Parser können Dokumente in Chunks unterteilt werden, die Kontextinformationen zur Layouthierarchie des Originaldokuments enthalten. LLMs, die Antworten generieren, können Chunks verwenden, um die Relevanz zu verbessern und die Rechenlast zu verringern.
Wenn das Layout eines Dokuments beim Chunking berücksichtigt wird, verbessert das die semantische Kohärenz und reduziert das Rauschen im Inhalt, wenn er für den Abruf und die LLM-Generierung verwendet wird. Der gesamte Text in einem Chunk stammt aus derselben Layout-Einheit, z. B. einer Überschrift, einer Unterüberschrift oder einer Liste.
Beschränkungen
Es gelten folgende Einschränkungen:
- Onlineverarbeitung:
- Die maximale Größe der Eingabedatei beträgt 20 MB für alle Dateitypen.
- Maximal 15 Seiten pro PDF-Datei
- Batchverarbeitung:
- Maximale Größe einer einzelnen Datei von 40 MB für PDF-Dateien
- Maximal 500 Seiten pro PDF-Datei
Layout-Erkennung nach Dateityp
In der folgenden Tabelle sind die Elemente aufgeführt, die von Layout Parser pro Dokumentdateityp erkannt werden können.
Dateityp | Erkannte Elemente | Beschränkungen |
---|---|---|
HTML | Absatz, Tabelle, Liste, Titel, Überschrift, Seitenkopf, Seitenfuß | Das Parsen hängt stark von HTML-Tags ab. CSS-basierte Formatierungen werden daher möglicherweise nicht erfasst. |
Absatz, Tabelle, Titel, Überschrift, Seitenkopf, Seitenfuß | Tabellen, die sich über mehrere Seiten erstrecken, werden möglicherweise in zwei Tabellen aufgeteilt. | |
DOCX (Vorschau) | Absatz, Tabellen auf mehreren Seiten, Liste, Titel, Überschriftenelemente | Verschachtelte Tabellen werden nicht unterstützt. |
PPTX (Vorschau) | Absatz-, Tabellen-, Listen-, Titel- und Überschriftenelemente | Damit Überschriften richtig erkannt werden, müssen sie in der PowerPoint-Datei als solche gekennzeichnet sein. Verschachtelte Tabellen und ausgeblendete Folien werden nicht unterstützt. |
XLSX/XLSM (Vorschau) | Tabellen in Excel-Tabellen, die INT -, FLOAT - und STRING -Werte unterstützen |
Die Erkennung mehrerer Tabellen wird nicht unterstützt. Auch ausgeblendete Tabellenblätter, Zeilen oder Spalten können sich auf die Erkennung auswirken. |
Hinweise
So aktivieren Sie den Layout-Parser:
Erstellen Sie einen Layout-Parser. Folgen Sie dazu der Anleitung unter Prozessoren erstellen und verwalten.
Der Name des Prozessortyps ist
LAYOUT_PARSER_PROCESSOR
.Aktivieren Sie den Layout Parser gemäß der Anleitung unter Prozessor aktivieren.
Onlineprozessanfrage mit Layout Parser senden
Geben Sie Dokumente in den Layout-Parser ein, um sie zu parsen und in Blöcke zu unterteilen.
Folgen Sie der Anleitung für Batchverarbeitungsanfragen unter Verarbeitungsanfrage senden.
Felder in
ProcessOptions.layoutConfig
inProcessDocumentRequest
konfigurierenREST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- LOCATION: Der Standort Ihres Prozessors, z. B.
us
– USAeu
– Europäische Union
- PROJECT_ID: Ihre Google Cloud -Projekt-ID
- PROCESSOR_ID: Die ID Ihres benutzerdefinierten Prozessors.
- MIME_TYPE: Der Layout-Parser unterstützt
application/pdf
undtext/html
. - DOCUMENT: Der Inhalt, der in Blöcke aufgeteilt werden soll. Der Layout Parser akzeptiert Roh-PDF- oder HTML-Dokumente oder geparste Dokumente, die vom Layout Parser ausgegeben wurden.
- CHUNK_SIZE: Optional. Die Chunk-Größe in Tokens, die beim Aufteilen von Dokumenten verwendet werden soll.
- INCLUDE_ANCESTOR_HEADINGS: Optional. Boolescher Wert. Gibt an, ob Ancestor-Überschriften beim Aufteilen von Dokumenten berücksichtigt werden sollen.
HTTP-Methode und URL:
POST https://LOCATION-documentai.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID:process
JSON-Text der Anfrage:
// Sample for inputting raw documents such as PDF or HTML { "rawDocument": { "mimeType": "MIME_TYPE", "content": "DOCUMENT" }, "processOptions": { "layoutConfig": { "chunkingConfig": { "chunkSize": "CHUNK_SIZE", "includeAncestorHeadings": "INCLUDE_ANCESTOR_HEADINGS", } } } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen
request.json
und führen Sie den folgenden Befehl aus:curl -X POST \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-documentai.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID:process"PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen
request.json
und führen Sie den folgenden Befehl aus:$headers = @{ }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-documentai.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID:process" | Select-Object -Expand ContentDocument.documentLayout
undDocument.chunkedDocument
.Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
- LOCATION: Der Standort Ihres Prozessors, z. B.
Dokumente mit dem Layout-Parser im Batch verarbeiten
Gehen Sie so vor, um mehrere Dokumente in einer einzigen Anfrage zu parsen und in Chunks aufzuteilen.
Geben Sie Dokumente in den Layout-Parser ein, um sie zu parsen und in Blöcke zu unterteilen.
Folgen Sie der Anleitung für Batchverarbeitungsanfragen unter Verarbeitungsanfrage senden.
Konfigurieren Sie Felder in
ProcessOptions.layoutConfig
, wenn Sie einebatchProcess
-Anfrage stellen.Eingabe
Im folgenden Beispiel wird
ProcessOptions.layoutConfig
mit JSON konfiguriert."processOptions": { "layoutConfig": { "chunkingConfig": { "chunkSize": "CHUNK_SIZE", "includeAncestorHeadings": "INCLUDE_ANCESTOR_HEADINGS_BOOLEAN" } } }
Ersetzen Sie Folgendes:
CHUNK_SIZE
: Die maximale Chunksize in Anzahl der Tokens, die beim Aufteilen von Dokumenten verwendet werden soll.INCLUDE_ANCESTOR_HEADINGS_BOOLEAN
: Gibt an, ob beim Aufteilen von Dokumenten auch Überschriften der übergeordneten Abschnitte berücksichtigt werden sollen. Ancestor-Überschriften sind die übergeordneten Elemente von Unterüberschriften im Originaldokument. Sie können einen Chunks mit zusätzlichem Kontext zu seiner Position im Originaldokument bereitstellen. Ein Chunk kann bis zu zwei Überschriftenebenen enthalten.
Nächste Schritte
- Sehen Sie sich die Liste der Prozessoren an.
- Erstellen Sie einen benutzerdefinierten Klassifikator.
- Verwenden Sie Enterprise Document OCR, um Text zu erkennen und zu extrahieren.
- Informationen zum Verarbeiten von Antworten finden Sie unter Batchverarbeitungsanfrage für Dokumente senden.