Vorlagenbasierte Extraktion

Sie können ein leistungsstarkes Modell mit nur drei Trainings- und drei Testdokumenten für Anwendungsfälle mit festem Layout trainieren. Beschleunigen Sie die Entwicklung und verkürzen Sie die Produktionszeit für Dokumenttypen mit Vorlagen wie W9, 1040, ACORD, Umfragen und Fragebögen.

Dataset-Konfiguration

Zum Trainieren, Aktualisieren oder Bewerten einer Prozessorversion ist ein Dokument-Dataset erforderlich. Document AI-Prozessoren lernen aus Beispielen, genau wie Menschen. Das Dataset trägt zur Stabilität des Prozessors in Bezug auf die Leistung bei.

Trainings-Dataset

Um das Modell und seine Genauigkeit zu verbessern, trainieren Sie ein Dataset mit Ihren Dokumenten. Das Modell besteht aus Dokumenten mit Ground Truth. Sie benötigen mindestens drei Dokumente, um ein neues Modell zu trainieren.

Test-Dataset

Das Test-Dataset wird vom Modell verwendet, um einen F1-Wert (Genauigkeit) zu generieren. Es besteht aus Dokumenten mit Grundwahrheit. Um zu sehen, wie oft das Modell richtig liegt, wird die Ground Truth verwendet, um die Vorhersagen des Modells (extrahierte Felder aus dem Modell) mit den richtigen Antworten zu vergleichen. Das Test-Dataset sollte mindestens drei Dokumente enthalten.

Hinweise

Aktivieren Sie Folgendes, falls noch nicht geschehen:

Best Practices für die Label-Erstellung im Vorlagenmodus

Eine korrekte Kennzeichnung ist einer der wichtigsten Schritte, um eine hohe Genauigkeit zu erreichen. Für den Vorlagenmodus wird eine spezielle Labeling-Methode verwendet, die sich von anderen Trainingsmodi unterscheidet:

  • Zeichnen Sie Begrenzungsrahmen um den gesamten Bereich, in dem sich Daten (pro Label) in einem Dokument befinden sollen, auch wenn das Label im Trainingsdokument, das Sie labeln, leer ist.
  • Sie können leere Felder für vorlagenbasiertes Training labeln. Leere Felder dürfen für das modellbasierte Training nicht mit Labels versehen werden.

Benutzerdefinierten Extraktor im Vorlagenmodus erstellen und bewerten

  1. Benutzerdefinierten Extraktor erstellen Erstellen Sie einen Prozessor und definieren Sie die Felder, die Sie extrahieren möchten, gemäß den Best Practices. Das ist wichtig, da es sich auf die Qualität der Extraktion auswirkt.

  2. Dataset-Speicherort festlegen Wählen Sie den Standardordner für Optionen aus (von Google verwaltet). Dies kann kurz nach der Erstellung des Prozessors automatisch erfolgen.

  3. Rufen Sie den Tab Erstellen auf und wählen Sie Dokumente importieren aus. Das automatische Labeling muss aktiviert sein. Wenn Sie mehr als die erforderlichen drei Dokumente hinzufügen, wird die Qualität des vorlagenbasierten Trainings in der Regel nicht verbessert. Konzentrieren Sie sich stattdessen darauf, eine kleine Menge sehr genau zu labeln.

  4. Begrenzungsrahmen erweitern Diese Felder für den Vorlagenmodus sollten wie in den vorherigen Beispielen aussehen. Erweitern Sie die Begrenzungsrahmen gemäß den Best Practices, um ein optimales Ergebnis zu erzielen.

  5. Modell trainieren.

    1. Wählen Sie Neue Version trainieren aus.
    2. Benennen Sie die Prozessorversion.
    3. Rufen Sie Erweiterte Optionen einblenden auf und wählen Sie den vorlagenbasierten Modellansatz aus.

    template-based-extraction-3

  6. Bewertung.

    1. Rufen Sie Bewerten und testen auf.
    2. Wählen Sie die Version aus, die Sie gerade trainiert haben, und dann Vollständige Auswertung ansehen.

    template-based-extraction-4

    Sie sehen jetzt Messwerte wie F1, Genauigkeit und Trefferquote für das gesamte Dokument und jedes Feld. 1. Prüfen Sie, ob die Leistung Ihren Produktionszielen entspricht. Wenn nicht, sollten Sie die Trainings- und Testsets noch einmal überprüfen.

  7. Legen Sie eine neue Version als Standard fest.

    1. Rufen Sie Versionen verwalten auf.
    2. Wähle das Menü „Einstellungen“ aus und markiere Als Standard festlegen.

    template-based-extraction-5

    Ihr Modell wird jetzt bereitgestellt und für Dokumente, die an diesen Prozessor gesendet werden, wird Ihre benutzerdefinierte Version verwendet. Sie möchten die Leistung des Modells bewerten (weitere Informationen) und prüfen, ob es weiter trainiert werden muss.

Bewertungsreferenz

Die Auswertungs-Engine kann sowohl genaue als auch unscharfe Übereinstimmungen erkennen. Bei einer genauen Übereinstimmung muss der extrahierte Wert genau mit der Ground Truth übereinstimmen. Andernfalls wird er als Fehler gezählt.

Extraktionen mit unscharfem Abgleich, die geringfügige Unterschiede wie unterschiedliche Groß- und Kleinschreibung aufwiesen, werden weiterhin als Übereinstimmung gezählt. Dies kann auf dem Bildschirm Bewertung geändert werden.

template-based-extraction-6

Automatisches Labeling mit dem Foundation Model

Mit dem Basismodell lassen sich Felder für eine Vielzahl von Dokumenttypen präzise extrahieren. Sie können jedoch auch zusätzliche Trainingsdaten bereitstellen, um die Genauigkeit des Modells für bestimmte Dokumentstrukturen zu verbessern.

Document AI verwendet die von Ihnen definierten Labelnamen und vorherige Annotationen, um mithilfe der Funktion „automatisches Labeling“ das Labeln großer Dokumentmengen schneller und einfacher zu machen.

  1. Nachdem Sie einen benutzerdefinierten Prozessor erstellt haben, rufen Sie den Tab Jetzt starten auf.
  2. Wählen Sie Neues Feld erstellen aus.

    template-based-extraction-7

  3. Rufen Sie den Tab Erstellen auf und wählen Sie Dokumente importieren aus.

    template-based-extraction-8

  4. Wählen Sie den Pfad der Dokumente und das Set aus, in das die Dokumente importiert werden sollen. Klicken Sie das Kästchen für das automatische Labeling an und wählen Sie das Basismodell aus.

  5. Wählen Sie auf dem Tab Erstellen die Option Dataset verwalten aus. Sie sollten jetzt Ihre importierten Dokumente sehen. Wählen Sie eines Ihrer Dokumente aus.

    template-based-extraction-9

  6. Die Vorhersagen des Modells werden lila hervorgehoben. Sie müssen jedes vom Modell vorhergesagte Label überprüfen und sicherstellen, dass es korrekt ist. Falls Felder fehlen, müssen Sie diese ebenfalls hinzufügen.

    template-based-extraction-10

  7. Wenn das Dokument überprüft wurde, wählen Sie Als „Mit Label versehen“ markieren aus.

  8. Das Dokument kann jetzt vom Modell verwendet werden. Das Dokument muss sich im Test- oder Trainingsset befinden.