Datenextraktion – Übersicht

Document AI bietet mehrere Produkte zum Extrahieren von Informationen aus Dokumenten für verschiedene Anwendungsfälle:

  • Formularparser
  • Benutzerdefinierter Extraktor mit drei verschiedenen Modellierungstypen:

    • Foundation Model
    • Auf benutzerdefinierten Modellen basierend
    • Auf benutzerdefinierter Vorlage basierend
  • Layout Parser

Formularparser

Der Formularparser extrahiert Schlüssel/Wert-Paare, Tabellen, Auswahlmarkierungen (Kästchen) und generische Felder, um die Extraktion zu optimieren und zu automatisieren. Es kann bis zu 11 allgemeine Entitäten und Kästchen extrahieren. Sie geben die Felder (das Schema) nicht an, die Sie mit dem Formularparser extrahieren möchten. Das Modell erkennt und gibt relevante Entitäten von jeder Seite von Dokumenten zurück.

Benutzerdefinierter Extrahierer

Mit dem benutzerdefinierten Extraktor werden Entitäten extrahiert, die Sie im Schema definieren. Es gibt drei Modellierungsoptionen: Basismodell, benutzerdefiniertes Modell und benutzerdefinierte Vorlage. Da Fundamentmodelle mit wenig bis gar keinen Trainingsdaten vielversprechende Ergebnisse liefern, empfehlen wir, zuerst das Fundamentmodell zu verwenden und bei Bedarf andere Optionen auszuprobieren. Die Grundlagenmodelle führen Zero- bis Few-Shot-Vorhersagen auf Grundlage von bis zu fünf gelabelten Dokumenten im Dataset und optimierte Vorhersagen mit mehr als zehn gelabelten Dokumenten im Dataset durch.

Trainingsmethode Beispieldokumente Variationen des Dokumentlayouts Freitext oder Absätze Anzahl der Trainingsdokumente für eine produktionsreife Qualität, je nach Variabilität
Optimierung und Foundation Model (generative KI) Vertrag, Nutzungsbedingungen, Rechnung, Kontoauszug, Frachtbrief, Lohnabrechnungen. Absteigend (bevorzugt) Hoch Mittel: 0–50+ Dokumente
Benutzerdefiniertes Modell Modell Ähnliche Formulare mit Layoutabweichungen zwischen den Jahren oder Anbietern (z. B. W9). Gering bis mittel. Niedrig Hoch: 10–100 Dokumente oder mehr.
Vorlage Steuerformulare mit einem festen Layout, z. B. die Formulare 941 und 709. Keine. Niedrig Niedrig (3 Dokumente)

Da Foundation Models in der Regel weniger Trainingsdokumente benötigen, werden sie als erste Option für alle variablen Layouts empfohlen.

Layoutparser

Der Layoutparser wandelt Dokumente in verschiedenen Formaten in strukturierte Darstellungen um. So werden Inhalte wie Absätze, Tabellen, Listen und strukturelle Elemente wie Überschriften, Seitenkopf- und ‑fußzeilen zugänglich gemacht. Außerdem werden kontextsensitive Blöcke erstellt, die das Abrufen von Informationen in einer Reihe von Anwendungen für generative KI und Discovery erleichtern.