Datenextraktion – Übersicht

Document AI bietet mehrere Produkte zum Extrahieren von Informationen aus Dokumenten für verschiedene Anwendungsfälle:

  • Formularparser
  • Benutzerdefinierter Extractor mit drei verschiedenen Modellierungstypen:

    • Foundation Model
    • Auf benutzerdefiniertem Modell basierend
    • Basierend auf benutzerdefinierter Vorlage
  • Layout-Parser

Formularparser

Der Formular-Parser extrahiert Schlüssel/Wert-Paare, Tabellen, Auswahlmarkierungen (Kästchen) und generische Felder, um die Extraktion zu ergänzen und zu automatisieren. Es kann standardmäßig bis zu 11 generische Entitäten und Kästchen extrahieren. Sie geben die Felder (Schema) nicht an, die Sie mit dem Formularparser extrahieren möchten. Das Modell erkennt und gibt Entitäten von Interesse auf jeder Seite der Dokumente zurück.

Benutzerdefinierter Extrahierer

Der benutzerdefinierte Extractor extrahiert Entitäten, die Sie im Schema definieren, und bietet drei Modellierungsoptionen: auf Basis des Basismodells, auf Basis eines benutzerdefinierten Modells und auf Basis einer benutzerdefinierten Vorlage. Angesichts der vielversprechenden Ergebnisse von Fundamentmodellen mit wenig bis gar keinen Trainingsdaten empfehlen wir, als Erstes mit dem Fundamentmodell zu beginnen und bei Bedarf andere Optionen auszuprobieren. Die Grundlagenmodelle führen eine Vorhersage mit Null- bis wenigen Beispielen durch, basierend auf bis zu fünf gekennzeichneten Dokumenten im Dataset, und eine optimierte Vorhersage mit mehr als zehn gekennzeichneten Dokumenten im Dataset.

Trainingsmethode Dokumentbeispiele Abweichungen beim Dokumentlayout Freitext oder Absätze Anzahl der Trainingsdokumente für die produktionsreife Qualität, je nach Variabilität
Foundation Model (generative KI) optimieren. Vertrag, Nutzungsbedingungen, Rechnung, Kontoauszug, Frachtbrief, Lohnabrechnung Von hoch nach niedrig (bevorzugt) Hoch. Mittel: 0–50 Dokumente
Benutzerdefiniertes Modell Modell. Ähnliche Formulare mit unterschiedlichem Layout über Jahre oder Anbieter hinweg (z. B. W9) Niedrig bis mittel. Niedrig. Hoch: 10–100 Dokumente oder mehr
Vorlage Steuerformulare mit einem festen Layout (z. B. Formulare 941 und 709) Niedrig. Niedrig (3 Dokumente)

Da für Basismodelle in der Regel weniger Trainingsdokumente erforderlich sind, werden sie als erste Option für alle variablen Layouts empfohlen.

Layout-Parser

Der Layout-Parser wandelt Dokumente in verschiedenen Formaten in strukturierte Darstellungen um, macht Inhalte wie Absätze, Tabellen, Listen und strukturelle Elemente wie Überschriften, Seitenüberschriften und Fußzeilen zugänglich und erstellt kontextsensitive Blöcke, die das Abrufen von Informationen in einer Reihe von Anwendungen für generative KI und Discovery erleichtern.