Vorlagenbasierte Extraktion
Für Anwendungsfälle mit festem Layout können Sie ein leistungsstarkes Modell mit nur drei Trainings- und drei Testdokumenten trainieren. Beschleunigen Sie die Entwicklung und reduzieren Sie die Produktionszeit für Dokumenttypen mit Vorlagen wie W9, 1040, ACORD, Umfragen und Fragebögen.
Dataset-Konfiguration
Zum Trainieren, Aktualisieren oder Bewerten einer Prozessorversion ist ein Dokumenten-Dataset erforderlich. Document AI-Prozessoren lernen genau wie Menschen anhand von Beispielen. Der Datensatz trägt zur Stabilität des Prozessors bei.Trainings-Dataset
Trainieren Sie einen Datensatz mit Ihren Dokumenten, um das Modell und seine Genauigkeit zu verbessern. Das Modell besteht aus Dokumenten mit Ground-Truth-Daten. Sie benötigen mindestens drei Dokumente, um ein neues Modell zu trainieren.Test-Dataset
Anhand des Test-Datasets generiert das Modell einen F1-Wert (Genauigkeit). Sie besteht aus Dokumenten mit Ground Truth. Um zu sehen, wie oft das Modell richtig liegt, werden die Vorhersagen des Modells (aus dem Modell extrahierte Felder) mit den richtigen Antworten verglichen. Der Testdatensatz sollte mindestens drei Dokumente enthalten.Hinweise
Aktivieren Sie Folgendes, falls noch nicht geschehen:
Best Practices für das Labeling im Vorlagenmodus
Eine korrekte Kennzeichnung ist einer der wichtigsten Schritte, um eine hohe Genauigkeit zu erreichen. Der Vorlagenmodus hat eine spezielle Methode zum Labeln, die sich von anderen Trainingsmodi unterscheidet:
- Zeichnen Sie Begrenzungsrahmen um den gesamten Bereich innerhalb eines Dokuments, in dem Sie Daten erwarten (pro Label), auch wenn das Label im zu belabelnden Trainingsdokument leer ist.
- Sie können leere Felder für vorlagenbasiertes Training kennzeichnen. Labeln Sie leere Felder nicht für das modellbasierte Training.
Benutzerdefinierten Extractor mit Vorlagenmodus erstellen und bewerten
Erstellen Sie einen benutzerdefinierten Extraktor. Erstellen Sie einen Prozessor und definieren Sie die Felder, die Sie gemäß den Best Practices extrahieren möchten. Das ist wichtig, da sich dies auf die Qualität der Datenextraktion auswirkt.
Legen Sie den Speicherort des Datasets fest. Wählen Sie den Ordner mit der Standardoption aus (von Google verwaltet). Dies geschieht möglicherweise automatisch kurz nach dem Erstellen des Prozessors.
Rufen Sie den Tab Erstellen auf und wählen Sie Dokumente importieren aus. Das automatische Labeling muss aktiviert sein. Wenn Sie mehr als die drei erforderlichen Dokumente hinzufügen, verbessert sich die Qualität des modellbasierten Trainings in der Regel nicht. Anstatt mehr hinzuzufügen, sollten Sie sich darauf konzentrieren, eine kleine Gruppe sehr genau zu labeln.
Begrenzungsrahmen erweitern Diese Felder für den Vorlagenmodus sollten wie in den vorherigen Beispielen aussehen. Erweitern Sie die Begrenzungsboxen gemäß den Best Practices, um das optimale Ergebnis zu erzielen.
Modell trainieren.
- Wählen Sie Neue Version trainieren aus.
- Geben Sie einen Namen für die Prozessorversion ein.
- Klicken Sie auf Erweiterte Optionen anzeigen und wählen Sie den modellbasierten Ansatz für Vorlagen aus.
Bewertung.
- Gehen Sie zu Bewerten und testen.
- Wählen Sie die Version aus, die Sie gerade trainiert haben, und dann Vollständige Bewertung ansehen.
Nun sehen Sie Messwerte wie F1, Genauigkeit und Trefferquote für das gesamte Dokument und jedes Feld. 1. Entscheiden Sie, ob die Leistung Ihre Produktionsziele erfüllt. Falls nicht, bewerten Sie die Trainings- und Testsätze noch einmal.
Legen Sie eine neue Version als Standard fest.
- Gehen Sie zu Versionen verwalten.
- Wählen Sie die Option aus, um das Menü „Einstellungen“ aufzurufen, und markieren Sie dann Als Standard festlegen.
Ihr Modell wird jetzt bereitgestellt und Dokumente, die an diesen Prozessor gesendet werden, verwenden Ihre benutzerdefinierte Version. Sie möchten die Leistung des Modells bewerten (weitere Informationen), um zu prüfen, ob es weiter trainiert werden muss.
Referenz für die Bewertung
Die Bewertungs-Engine kann sowohl eine genaue Übereinstimmung als auch eine sich annähernde Übereinstimmung durchführen. Bei einer genauen Übereinstimmung muss der extrahierte Wert genau mit der Ground Truth übereinstimmen. Andernfalls wird er als Fehlschlag gezählt.
Ergebnisse der Fuzzy-Übereinstimmung, die geringfügige Unterschiede aufweisen, z. B. in der Groß- und Kleinschreibung, werden trotzdem als Übereinstimmung gezählt. Das kann auf dem Bildschirm Bewertung geändert werden.
Automatisches Labeling mit dem Basismodell
Mit dem Basismodell lassen sich Felder für eine Vielzahl von Dokumenttypen präzise extrahieren. Sie können jedoch auch zusätzliche Trainingsdaten bereitstellen, um die Genauigkeit des Modells für bestimmte Dokumentstrukturen zu verbessern.
Document AI verwendet die von Ihnen definierten Labelnamen und vorherigen Anmerkungen, um Dokumente in großem Umfang mithilfe des automatischen Labels schneller und einfacher zu labeln.
- Nachdem Sie einen benutzerdefinierten Prozessor erstellt haben, rufen Sie den Tab Einstieg auf.
Wählen Sie Neues Feld erstellen aus.
Rufen Sie den Tab Build auf und wählen Sie Dokumente importieren aus.
Wählen Sie den Pfad der Dokumente und den Satz aus, in den die Dokumente importiert werden sollen. Klicken Sie das Kästchen für das automatische Labeling an und wählen Sie das Basismodell aus.
Wählen Sie auf dem Tab Erstellen die Option Dataset verwalten aus. Die importierten Dokumente sollten angezeigt werden. Wählen Sie eines Ihrer Dokumente aus.
Die Vorhersagen des Modells sind lila hervorgehoben. Sie müssen jedes vom Modell vorhergesagte Label prüfen und darauf achten, dass es korrekt ist. Fehlende Felder müssen ebenfalls hinzugefügt werden.
Wählen Sie nach der Überprüfung des Dokuments Als „Mit Label versehen“ markieren aus.
Das Dokument kann jetzt vom Modell verwendet werden. Das Dokument muss sich im Test- oder Trainings-Dataset befinden.