Benutzerdefinierte Extraktion
Mit dem Training und der Extraktion benutzerdefinierter Modelle können Sie ein eigenes Modell erstellen, das speziell auf Ihre Dokumente zugeschnitten ist, ohne generative KI zu verwenden. Sie eignet sich ideal, wenn Sie keine generative KI verwenden und alle Aspekte des trainierten Modells steuern möchten.
Dataset-Konfiguration
Zum Trainieren, Aktualisieren oder Bewerten einer Prozessorversion ist ein Dokumenten-Dataset erforderlich. Document AI-Prozessoren lernen genau wie Menschen anhand von Beispielen. Der Datensatz trägt zur Stabilität des Prozessors bei.Trainings-Dataset
Trainieren Sie einen Datensatz mit Ihren Dokumenten, um das Modell und seine Genauigkeit zu verbessern. Das Modell besteht aus Dokumenten mit Ground-Truth-Daten. Sie benötigen mindestens drei Dokumente, um ein neues Modell zu trainieren.Test-Dataset
Anhand des Test-Datasets generiert das Modell einen F1-Wert (Genauigkeit). Sie besteht aus Dokumenten mit Ground Truth. Um zu sehen, wie oft das Modell richtig liegt, werden die Vorhersagen des Modells (aus dem Modell extrahierte Felder) mit den richtigen Antworten verglichen. Der Testdatensatz sollte mindestens drei Dokumente enthalten.Vorbereitung
Aktivieren Sie die Abrechnung und die Document AI API, falls Sie dies noch nicht getan haben.
Benutzerdefiniertes Modell erstellen und bewerten
Erstellen Sie zuerst einen benutzerdefinierten Prozessor und bewerten Sie ihn dann.
Erstellen Sie einen Prozessor und definieren Sie die Felder, die Sie extrahieren möchten. Das ist wichtig, da sich dies auf die Qualität der Extraktion auswirkt.
Speicherort des Datensatzes festlegen: Wählen Sie den Standardordner Von Google verwaltet aus. Dies kann kurz nach dem Erstellen des Prozessors automatisch geschehen.
Rufen Sie den Tab Build auf und wählen Sie Dokumente importieren aus. Aktivieren Sie das automatische Labeling (siehe Automatisches Labeling mit dem Basismodell). Sie benötigen mindestens 10 Dokumente im Trainings- und 10 im Testset, um ein benutzerdefiniertes Modell zu trainieren.
Modell trainieren:
- Wählen Sie Neue Version trainieren aus und geben Sie einen Namen für die Prozessorversion ein.
- Klicken Sie auf Erweiterte Optionen anzeigen und wählen Sie die Option Modellbasiert aus.
Bewertung:
- Klicken Sie auf Bewerten und testen, wählen Sie die Version aus, die Sie gerade trainiert haben, und dann Vollständige Bewertung ansehen.
- Jetzt sehen Sie Messwerte wie F1, Genauigkeit und Trefferquote für das gesamte Dokument und jedes Feld.
- Prüfen Sie, ob die Leistung Ihre Produktionsziele erfüllt. Falls nicht, bewerten Sie die Trainings- und Testsätze noch einmal. Fügen Sie dem Trainings-Testsatz in der Regel Dokumente hinzu, die nicht gut geparst werden.
Legen Sie eine neue Version als Standard fest.
- Gehen Sie zu Versionen verwalten.
- Öffne das Dreistrich-Menü und wähle Als Standard festlegen aus.
Ihr Modell ist jetzt bereitgestellt und für Dokumente, die an diesen Prozessor gesendet werden, wird jetzt Ihre benutzerdefinierte Version verwendet. Sie möchten die Leistung des Modells bewerten, um zu prüfen, ob es noch einmal trainiert werden muss.
Referenz für die Bewertung
Die Bewertungs-Engine kann sowohl eine genaue Übereinstimmung als auch eine sich annähernde Übereinstimmung durchführen. Bei einer genauen Übereinstimmung muss der extrahierte Wert genau mit der Ground Truth übereinstimmen. Andernfalls wird er als Fehlschlag gezählt.
Ergebnisse der Fuzzy-Übereinstimmung, die geringfügige Unterschiede aufweisen, z. B. in der Groß- und Kleinschreibung, werden trotzdem als Übereinstimmung gezählt. Das kann auf dem Bildschirm Bewertung geändert werden.
Automatisches Labeling mit dem Basismodell
Mit dem Basismodell lassen sich Felder für eine Vielzahl von Dokumenttypen präzise extrahieren. Sie können jedoch auch zusätzliche Trainingsdaten bereitstellen, um die Genauigkeit des Modells für bestimmte Dokumentstrukturen zu verbessern.
Document AI verwendet die von Ihnen definierten Labelnamen und vorherigen Anmerkungen, um Dokumente in großem Umfang mithilfe der automatischen Labels zu labeln.
- Wenn Sie einen benutzerdefinierten Prozessor erstellt haben, rufen Sie den Tab Jetzt starten auf.
- Wählen Sie Neues Feld erstellen aus.
- Geben Sie einen aussagekräftigen Namen ein und füllen Sie das Beschreibungsfeld aus. Mithilfe der Property-Beschreibung können Sie für jede Entität zusätzlichen Kontext, Statistiken und Vorwissen angeben, um die Accuracy und Leistung der Extraktion zu verbessern.
Rufen Sie den Tab Erstellen auf und wählen Sie Dokumente importieren aus.
Wählen Sie den Pfad der Dokumente und den Satz aus, in den die Dokumente importiert werden sollen. Klicken Sie das Kästchen für das automatische Labeling an und wählen Sie das Basismodell aus.
Wählen Sie auf dem Tab Erstellen die Option Dataset verwalten aus. Die importierten Dokumente sollten angezeigt werden. Wählen Sie eines Ihrer Dokumente aus.
Die Vorhersagen des Modells werden jetzt lila hervorgehoben.
- Prüfen Sie jedes vom Modell vorhergesagte Label und achten Sie darauf, dass es korrekt ist. Wenn Felder fehlen, fügen Sie sie hinzu.
- Wählen Sie nach der Überprüfung des Dokuments Als „Mit Label versehen“ markieren aus. Das Dokument kann jetzt vom Modell verwendet werden. Das Dokument muss sich entweder im Test- oder Trainings-Set befinden.