Labels zu Dokumenten hinzufügen
Zum Trainieren, Aktualisieren oder Bewerten einer Prozessorversion ist ein Dataset mit Labels erforderlich.
Auf dieser Seite wird beschrieben, wie Sie Labels aus Ihrem Prozessorschema auf importierte Dokumente in Ihrem Dataset anwenden.
Auf dieser Seite wird davon ausgegangen, dass Sie bereits einen Prozessor erstellt haben, der Training, Aufbautraining oder Bewertung unterstützt. Wenn Ihr Prozessor unterstützt wird, wird in der Google Cloud Console jetzt der Tab Train angezeigt. Außerdem wird davon ausgegangen, dass Sie ein Dataset erstellt, Dokumente importiert und ein Processor-Schema definiert haben.
Namensfelder für die Extraktion mit generativer KI
Die Benennung der Felder wirkt sich darauf aus, wie genau sie mithilfe generativer KI extrahiert werden. Wir empfehlen die folgenden Best Practices für die Benennung von Feldern:
Benennen Sie das Feld in derselben Sprache, in der es im Dokument beschrieben wird: Wenn ein Dokument beispielsweise ein Feld mit der Beschreibung
Employer Address
enthält, benennen Sie das Feldemployer_address
. Verwenden Sie keine Abkürzungen wieemplr_addr
.Leerzeichen werden in Feldnamen derzeit nicht unterstützt: Verwenden Sie anstelle von Leerzeichen
_
. Beispiel:First Name
würde den Namenfirst_name
erhalten.Namen iterieren, um die Genauigkeit zu verbessern: Document AI hat die Einschränkung, dass sich Feldnamen nicht ändern lassen. Wenn Sie verschiedene Namen testen möchten, verwenden Sie das Tool zum Umbenennen von Entitätsnamen, um den Namen der alten Entität im Datensatz durch einen neueren zu ersetzen. Importieren Sie dann den Datensatz, aktivieren Sie die neuen Entitäten im Prozessor und deaktivieren oder löschen Sie die vorhandenen Felder.
Labeloptionen
Sie haben folgende Möglichkeiten, Dokumente zu labeln:
Manuell: Dokumente manuell in der Google Cloud Console labeln
Automatische Labelerstellung: Verwenden Sie eine vorhandene Prozessorversion, um Labels zu generieren.
Bereits beschriftete Dokumente importieren: Sparen Sie Zeit, wenn Sie bereits beschriftete Dokumente haben.
Manuell in der Google Cloud Console labeln
Wählen Sie auf dem Tab Trainieren ein Dokument aus, um das Tool zum Beschriften zu öffnen.
Wählen Sie in der Liste der Schemalabels auf der linken Seite des Tool zum Beschriften das Symbol „Hinzufügen“ aus, um das Tool Begrenzungsrahmen auszuwählen. Damit können Sie Elemente im Dokument markieren und ihnen ein Label zuweisen.
Im folgenden Screenshot wurden den Feldern EMPL_SSN
, EMPLR_ID_NUMBER
, EMPLR_NAME_ADDRESS
, FEDERAL_INCOME_TAX_WH
, SS_TAX_WH
, SS_WAGES
und WAGES_TIPS_OTHER_COMP
im Dokument Labels zugewiesen.
Wenn Sie ein Kästchenelement mit dem Tool Begrenzungsrahmen auswählen, wählen Sie nur das Kästchen selbst aus, nicht den zugehörigen Text. Achten Sie darauf, dass das Kästchen links entweder angeklickt oder deaktiviert ist, damit es dem Inhalt des Dokuments entspricht.
Wenn Sie über- und untergeordnete Entitäten labeln, sollten Sie die übergeordneten Entitäten nicht labeln. Die übergeordneten Entitäten sind nur Container der untergeordneten Entitäten. Beschriften Sie nur die untergeordneten Entitäten. Die übergeordneten Entitäten werden automatisch aktualisiert.
Wenn Sie untergeordnete Entitäten beschriften, beschriften Sie zuerst die erste untergeordnete Entität und ordnen Sie dann die zugehörigen untergeordneten Entitäten dieser Zeile zu. Sie stellen das bei der zweiten untergeordneten Entität fest, wenn Sie solche Entitäten zum ersten Mal labeln. Wenn Sie beispielsweise bei einer Rechnung das Label Beschreibung verwenden, wird es wie jede andere Entität angezeigt. Wenn Sie jedoch als Nächstes Menge labeln, werden Sie aufgefordert, das übergeordnete Element auszuwählen.
Wiederholen Sie diesen Schritt für jede Werbebuchung, indem Sie für jede neue Werbebuchung Neue übergeordnete Entität auswählen.
Eltern-Kind-Entitäten sind eine Vorschaufunktion und werden nur für Tabellen mit einer Verschachtelungsebene unterstützt. Foundation-Modelle unterstützen drei Ebenen von Feldern (übergeordnetes Element, übergeordnete Entität, untergeordnete Entität). Untergeordnete Entitäten können also eine Ebene von untergeordneten Entitäten haben.
Kurzübersichten
Beim Beschriften einer Tabelle kann es mühsam sein, jede Zeile immer wieder zu beschriften. Es gibt ein sehr praktisches Tool, mit dem sich eine Zeilenentitätsstruktur replizieren lässt. Diese Funktion funktioniert nur bei horizontal ausgerichteten Zeilen.
- Beschriften Sie zuerst die erste Zeile wie gewohnt.
Halten Sie dann den Mauszeiger auf die übergeordnete Entität, die die Zeile darstellt. Wählen Sie Weitere Zeilen hinzufügen aus. Die Zeile wird zu einer Vorlage, mit der weitere Zeilen erstellt werden können.
Wählen Sie den Rest der Tabelle aus.
Das Tool errät die Anmerkungen und das funktioniert in der Regel. Tabellen, die nicht verarbeitet werden können, müssen manuell kommentiert werden.
Tastenkombinationen in der Konsole verwenden
Wenn Sie die verfügbaren Tastenkombinationen aufrufen möchten, wählen Sie rechts oben in der Labeling Console das Dreistrich-Menü
aus. Daraufhin wird eine Liste mit Tastenkürzeln angezeigt, wie in der folgenden Tabelle dargestellt.Aktion | Tastenkombination |
---|---|
Heranzoomen | Alt + = (Wahltaste + = unter macOS) |
Herauszoomen | Alt + - (Wahltaste + - unter macOS) |
Passend zum Anzeigen zoomen | Alt + 0 (Wahltaste + 0 unter macOS) |
Scrollen, um zu zoomen | Alt + Scrollen (Wahltaste + Scrollen unter macOS) |
Schwenken | Scrollen |
Umgekehrtes Schwenken | Umschalttaste + Scrollen |
Ziehen, um zu schwenken | Leertaste + Maus ziehen |
Rückgängig machen | Strg + Z (Befehlstaste + Z unter macOS) |
Wiederholen | Strg + Umschalttaste + Z (Befehlstaste + Umschalttaste + Z unter macOS) |
Labels automatisch hinzufügen
Falls verfügbar, können Sie eine vorhandene Version des Prozessors verwenden, um mit dem Labeling zu beginnen.
Das automatische Labeling kann während des import gestartet werden. Alle Dokumente werden mit der angegebenen Prozessorversion annotieren.
Das automatische Labeling kann nach dem import für Dokumente in der Kategorie „Ohne Label“ oder „Automatisch mit Label versehen“ gestartet werden. Alle ausgewählten Dokumente werden mit der angegebenen Prozessorversion annotieren.
Sie können keine automatisch mit Labels versehenen Dokumente für das Training oder das Aufbautraining verwenden oder sie im Testsatz verwenden, ohne sie als „Mit Label versehen“ zu markieren. Überprüfen und korrigieren Sie die automatisch erstellten Anmerkungen manuell und wählen Sie dann Als gekennzeichnet markieren aus, um die Korrekturen zu speichern. Anschließend können Sie die Dokumente entsprechend zuweisen.
Bereits beschriftete Dokumente importieren
Sie können JSON-Dateien vom Typ Document
importieren. Wenn entity
im Dokument mit dem Label im Prozessorschema übereinstimmt, wird entity
vom Importeur in eine Labelinstanz umgewandelt. Es gibt mehrere Möglichkeiten, JSON-Dokumentdateien zu erhalten:
Exportieren eines Datensatzes aus einem anderen Prozessor Weitere Informationen finden Sie unter Dataset exportieren.
Senden einer Verarbeitungsanfrage an einen bestehenden Auftragsverarbeiter.
Mit dem Import-Toolkit können Sie vorhandene Labels aus einem anderen System konvertieren, z. B. Labels im CSV-Format in JSON-Dokumente.
Best Practices für das Beschriften von Dokumenten
Für die Erstellung eines hochwertigen Prozessors ist eine einheitliche Kennzeichnung erforderlich. Wir empfehlen Folgendes:
Anleitung zum Labeln erstellen: Die Anleitung sollte sowohl Beispiele für häufige als auch für Grenzfälle enthalten. Einige Tipps:
- Erläutern Sie, welche Felder mit Anmerkungen versehen werden sollten und wie genau die Kennzeichnung einheitlich erfolgen soll. Geben Sie beispielsweise beim Beschriften von „amount“ an, ob das Währungssymbol beschriftet werden soll. Wenn die Labels nicht einheitlich sind, wird die Prozessorqualität reduziert.
- Labeln Sie alle Vorkommen einer Entität, auch wenn der Labeltyp
REQUIRED_ONCE
oderOPTIONAL_ONCE
ist. Wenninvoice_id
beispielsweise zweimal im Dokument vorkommt, kennzeichnen Sie alle Vorkommen. - Im Allgemeinen ist es besser, zuerst mit dem Tool für den Standardbegrenzungsrahmen zu labeln. Wenn das nicht funktioniert, verwenden Sie das Tool zum Auswählen von Text.
- Wenn der Wert des Labels nicht richtig durch die OCR erkannt wird, korrigieren Sie ihn nicht manuell. Das würde es für Trainingszwecke unbrauchbar machen.
Hier einige Beispielanleitungen für das Beschriften:
- Kommentatoren schulen: Achten Sie darauf, dass die Kommentatoren die Richtlinien verstehen und ohne systematische Fehler befolgen können. Eine Möglichkeit, dies zu erreichen, besteht darin, dass verschiedene Lernende dieselben Dokumente annotieren. Der Trainer kann dann die Qualität der Anmerkungen der einzelnen Teilnehmer prüfen. Möglicherweise müssen Sie diesen Vorgang wiederholen, bis die Lernenden eine bestimmte Genauigkeitsstufe erreichen.
- Erste Überprüfungen: Die ersten 10 oder so Dokumente, die von einem neuen Bearbeiter für einen Anwendungsfall gekennzeichnet wurden, sollten überprüft werden, bevor eine große Anzahl von Dokumenten gekennzeichnet wird, um eine große Anzahl von Fehlern zu vermeiden, die korrigiert werden müssen.
- Qualitätsprüfungen von Anmerkungen: Aufgrund der zeitaufwendigen Anmerkungen können auch erfahrene Anmerkungsbearbeiter Fehler machen. Wir empfehlen, Anmerkungen von mindestens einer weiteren geschulten Person überprüfen zu lassen.
Dataset neu synchronisieren
Durch die erneute Synchronisierung wird der Cloud Storage-Ordner Ihres Datensatzes mit dem internen Metadatenindex von Document AI abgeglichen. Das ist hilfreich, wenn Sie versehentlich Änderungen am Cloud Storage-Ordner vorgenommen haben und die Daten synchronisieren möchten.
So synchronisieren Sie die Daten neu:
Wählen Sie auf dem Tab Prozessordetails neben der Zeile Speicherort die Option
und dann Dataset neu synchronisieren aus.Verwendungshinweise:
- Wenn Sie ein Dokument aus dem Cloud Storage-Ordner löschen, wird es durch die Synchronisierung aus dem Datenpool entfernt.
- Wenn Sie dem Cloud Storage-Ordner ein Dokument hinzufügen, wird es bei der Synchronisierung nicht dem Dataset hinzugefügt. Wenn Sie Dokumente hinzufügen möchten, importieren Sie sie.
- Wenn Sie Dokumentlabels im Cloud Storage-Ordner ändern, werden die Dokumentlabels im Dataset durch die Synchronisierung aktualisiert.
Dataset migrieren
Mit Import und Export können Sie alle Dokumente in einem Datensatz von einem Prozessor zu einem anderen verschieben. Das kann nützlich sein, wenn Sie Prozessoren in verschiedenen Regionen oder in Google Cloud -Projekten haben, wenn Sie unterschiedliche Prozessoren für die Staging- und Produktionsumgebung oder für die allgemeine Offlinenutzung haben.
Es werden nur die Dokumente und ihre Labels exportiert. Dataset-Metadaten wie das Prozessorschema, die Dokumentzuweisungen (Training/Test/nicht zugewiesen) und der Status der Dokumentlabelerstellung (mit Label versehen, ohne Label, automatisch mit Label versehen) werden nicht exportiert.
Das Kopieren und Importieren des Datasets und das anschließende Trainieren des Zielprozessors ist nicht genau dasselbe wie das Trainieren des Quellprozessors. Das liegt daran, dass zu Beginn des Trainings zufällige Werte verwendet werden. Verwenden Sie den importProcessorVersion
API-Aufruf, um dasselbe Modell zwischen Projekten zu importieren und zu migrieren. Dies ist eine Best Practice für die Migration von Prozessoren in höhere Umgebungen (z. B. von der Entwicklungs- zur Staging-Umgebung und dann zur Produktionsumgebung), sofern die Richtlinien dies zulassen.
Dataset exportieren
Wenn Sie alle Dokumente als JSON-Document
-Dateien in einen Cloud Storage-Ordner exportieren möchten, wählen Sie Dataset exportieren aus.
Wichtige Hinweise:
Beim Export werden drei Unterordner erstellt: Test, Train und Unassigned. Ihre Dokumente werden entsprechend in diese Unterordner verschoben.
Der Kennzeichnungsstatus eines Dokuments wird nicht exportiert. Wenn Sie die Dokumente später importieren, werden sie nicht als automatisch gekennzeichnet markiert.
Wenn sich Ihr Cloud Storage in einem anderen Google Cloud -Projekt befindet, müssen Sie Zugriff gewähren, damit Document AI Dateien an diesen Speicherort schreiben kann. Insbesondere müssen Sie dem zentralen Dienst-Agenten von Document AI (
service-{project-id}@gcp-sa-prod-dai-core.iam.gserviceaccount.com
) die Rolle Storage Object Creator zuweisen. Weitere Informationen finden Sie unter Kundenservicemitarbeiter.
Dataset importieren
Die Vorgehensweise entspricht der unter Dokumente importieren beschriebenen.
Anleitung zum selektiven Labeling
Beim selektiven Labeling erhalten Sie Empfehlungen dazu, welche Dokumente Sie labeln sollten. Sie können verschiedene Trainings- und Test-Datasets erstellen, um repräsentative Modelle zu trainieren. Bei jeder selektiven Kennzeichnung werden die vielfältigsten (bis zu 30) Dokumente aus dem Datensatz ausgewählt.
Vorgeschlagene Dokumente abrufen
Erstellen Sie einen CDE-Prozessor und importieren Sie Dokumente.
- Für das Training sind mindestens 100 Sätze erforderlich (25 für das Testen).
- Sobald genügend Dokumente importiert und nach dem selektiven Labeln sollte die Informationsleiste angezeigt werden.
Wenn für einen CDE-Prozessor keine Dokumente vorgeschlagen werden, importieren Sie mehr, damit in beiden Teilmengen genügend Dokumente für die Stichprobenerhebung vorhanden sind.
- Dadurch sollten die vorgeschlagenen Dokumente in der Kategorie „Vorgeschlagen“ aktiviert werden. Sie sollten in der Lage sein, vorgeschlagene Dokumente manuell anzufordern.
- Oben gibt es einen neuen Filter, mit dem vorgeschlagene Dokumente herausgefiltert werden können.
Vorgeschlagene Dokumente labeln
Klicken Sie links im Bereich mit der Labelliste auf Vorgeschlagene Kategorie. Beginnen Sie mit dem Labeling dieser Dokumente.
Wählen Sie in der Infoleiste Automatisch labeln aus, wenn der Prozessor trainiert ist. Beschriften Sie die vorgeschlagenen Dokumente.
Wenn Sie im Prozessor Dokumente vorgeschlagen haben, zu denen Sie wechseln möchten, können Sie in der Leiste Jetzt überprüfen auswählen. Alle automatisch mit Labels versehenen Dokumente sollten auf Richtigkeit überprüft werden. Starten Sie die Überprüfung.
Trainieren, nachdem alle vorgeschlagenen Dokumente mit Labels versehen wurden
Gehen Sie in der Informationsleiste zu Jetzt trainieren. Wenn die vorgeschlagenen Dokumente gekennzeichnet sind, sollte die folgende Informationsleiste mit einer Empfehlung für das Training angezeigt werden.
Unterstützte Funktionen und Einschränkungen
Funktion | Beschreibung | Unterstützt |
---|---|---|
Unterstützung für alte Prozessoren | Funktioniert möglicherweise nicht gut mit alten Prozessoren und zuvor importierten Datensätzen |