Leistung auswerten
Document AI generiert Bewertungsmesswerte wie Precision und Recall, damit Sie die Vorhersageleistung Ihrer Prozessoren ermitteln können.
Diese Bewertungsmesswerte werden durch einen Vergleich der vom Prozessor zurückgegebenen Entitäten (Vorhersagen) mit den Annotationen in den Testdokumenten generiert. Wenn Ihr Prozessor keinen Testsatz hat, müssen Sie zuerst einen Datensatz erstellen und die Testdokumente labeln.
Bewertung ausführen
Eine Bewertung wird automatisch ausgeführt, wenn Sie eine Prozessorversion trainieren oder aktualisieren.
Sie können eine Bewertung auch manuell ausführen. Dies ist erforderlich, um aktualisierte Messwerte zu generieren, nachdem Sie den Testsatz geändert haben, oder wenn Sie eine vorab trainierte Prozessorversion bewerten.
Web-UI
Rufen Sie in der Google Cloud Console die Seite Prozessoren auf und wählen Sie Ihren Prozessor aus.
Wählen Sie auf dem Tab Bewerten und testen die Version des zu bewertenden Prozessors aus und klicken Sie dann auf Neue Bewertung ausführen.
Danach enthält die Seite Bewertungsmesswerte für alle Labels und für jedes einzelne Label.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Ergebnisse einer Bewertung abrufen
Web-UI
Rufen Sie in der Google Cloud Console die Seite Prozessoren auf und wählen Sie Ihren Prozessor aus.
Wählen Sie auf dem Tab Bewerten und testen die Version des Prozessors aus, um die Bewertung aufzurufen.
Danach enthält die Seite Bewertungsmesswerte für alle Labels und für jedes einzelne Label.
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Alle Bewertungen für eine Prozessorversion auflisten
Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Document AI Python API.
Richten Sie zur Authentifizierung bei Document AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Bewertungsmesswerte für alle Labels
Die Messwerte für Alle Labels werden anhand der Anzahl der echten positiven, falsch positiven und falsch negativen Ergebnisse im Datensatz für alle Labels berechnet. Sie werden also nach der Häufigkeit gewichtet, mit der jedes Label im Datensatz vorkommt. Definitionen dieser Begriffe finden Sie unter Bewertungsmesswerte für einzelne Labels.
Präzision:Der Anteil der Vorhersagen, die mit den Anmerkungen im Testsatz übereinstimmen. Definiert als
True Positives / (True Positives + False Positives)
Recall:Der Anteil der Anmerkungen im Testsatz, die korrekt vorhergesagt werden. Definiert als
True Positives / (True Positives + False Negatives)
F1-Wert:Der harmonische Mittelwert von Precision und Recall, der beide Messwerte in einem einzigen Messwert kombiniert und ihnen dieselbe Gewichtung zuweist. Definiert als
2 * (Precision * Recall) / (Precision + Recall)
Bewertungsmesswerte für einzelne Labels
Richtig positive Ergebnisse:Die vorhergesagten Entitäten, die mit einer Anmerkung im Testdokument übereinstimmen. Weitere Informationen finden Sie unter Abgleichsverhalten.
Falsch positive Ergebnisse:Die vorhergesagten Entitäten, die mit keiner Anmerkung im Testdokument übereinstimmen.
Falsch-Negativ-Ergebnisse: Die Anmerkungen im Testdokument, die mit keiner der vorhergesagten Entitäten übereinstimmen.
- Falsch negative Ergebnisse (unter dem Grenzwert): Die Anmerkungen im Testdokument, die mit einer vorhergesagten Entität übereinstimmen würden, deren Konfidenzwert jedoch unter dem angegebenen Konfidenzgrenzwert liegt.
Konfidenzwert
Die Bewertungslogik ignoriert alle Vorhersagen mit einem Konfidenzwert unter dem angegebenen Konfidenzschwellenwert, auch wenn die Vorhersage korrekt ist. Document AI bietet eine Liste der Falsch-Negativ-Ergebnisse (unter dem Grenzwert). Das sind die Anmerkungen, die übereinstimmen würden, wenn der Konfidenzgrenzwert niedriger festgelegt wäre.
Document AI berechnet automatisch den optimalen Grenzwert, mit dem der F1-Wert maximiert wird. Der Konfidenzgrenzwert wird standardmäßig auf diesen optimalen Wert festgelegt.
Sie können den Konfidenzgrenzwert selbst festlegen, indem Sie den Schieberegler bewegen. Im Allgemeinen führt ein höherer Konfidenzgrenzwert zu:
- höhere Precision, da die Vorhersagen mit höherer Wahrscheinlichkeit korrekt sind.
- niedrigerer Recall, da es weniger Vorhersagen gibt.
Tabellarische Entitäten
Die Messwerte für ein übergeordnetes Label werden nicht durch direktes Mitteln der untergeordneten Messwerte berechnet, sondern durch Anwenden des Konfidenzgrenzwerts des übergeordneten Labels auf alle untergeordneten Labels und Aggregieren der Ergebnisse.
Der optimale Grenzwert für das übergeordnete Element ist der Konfidenzgrenzwert, der bei Anwendung auf alle untergeordneten Elemente den maximalen F1-Wert für das übergeordnete Element ergibt.
Abgleichsverhalten
Eine vorhergesagte Entität stimmt mit einer Anmerkung überein, wenn:
- Der Typ der vorhergesagten Entität (
entity.type
) stimmt mit dem Labelnamen der Anmerkung überein. - Der Wert der vorhergesagten Entität (
entity.mention_text
oderentity.normalized_value.text
) stimmt mit dem Textwert der Anmerkung überein, sofern die unscharfe Übereinstimmung aktiviert ist.
Für den Abgleich werden nur Typ und Textwert verwendet. Andere Informationen wie Textanker und Begrenzungsboxen (mit Ausnahme der unten beschriebenen tabellarischen Entitäten) werden nicht verwendet.
Labels für einzelne und mehrere Vorkommen
Labels mit nur einem Vorkommen haben einen Wert pro Dokument (z. B. Rechnungs-ID), auch wenn dieser Wert im selben Dokument mehrmals angegeben ist (z. B. wenn die Rechnungs-ID auf jeder Seite desselben Dokuments erscheint). Auch wenn die verschiedenen Anmerkungen unterschiedliche Texte enthalten, werden sie als gleich betrachtet. Mit anderen Worten: Wenn eine vorhergesagte Entität mit einer der Anmerkungen übereinstimmt, wird sie als Übereinstimmung gezählt. Die zusätzlichen Anmerkungen gelten als doppelte Erwähnungen und werden nicht zu den Werten für richtig positive, falsch positive oder falsch negative Ergebnisse gezählt.
Labels mit mehreren Vorkommen können mehrere unterschiedliche Werte haben. So werden alle vorhergesagten Entitäten und Anmerkungen berücksichtigt und separat abgeglichen. Wenn ein Dokument N Anmerkungen für ein Label mit mehreren Vorkommen enthält, kann es N Übereinstimmungen mit den vorhergesagten Entitäten geben. Jede vorhergesagte Entität und Anmerkung wird unabhängig als richtig positiv, falsch positiv oder falsch negativ gezählt.
Ungenaue Übereinstimmung
Mit der Ein/Aus-Schaltfläche Keine exakte Übereinstimmung können Sie einige der Abgleichsregeln verschärfen oder lockern, um die Anzahl der Übereinstimmungen zu verringern oder zu erhöhen.
Ohne den unscharfen Abgleich stimmt der String ABC
beispielsweise aufgrund der Groß- und Kleinschreibung nicht mit abc
überein. Bei der schiefwinkligen Übereinstimmung ist das jedoch der Fall.
Wenn die ungenaue Übereinstimmung aktiviert ist, gelten die folgenden Regeländerungen:
Normalisierung von Leerzeichen:Entfernt voran- und nachgestellte Leerzeichen und komprimiert aufeinanderfolgende Zwischenräume (einschließlich Zeilenumbrüchen) zu einzelnen Leerzeichen.
Voran- und nachgestellte Satzzeichen entfernen: Hiermit werden die folgenden voran- und nachgestellten Satzzeichen entfernt:
!,.:;-"?|
.Groß- und Kleinschreibung ignorieren:Alle Zeichen werden in Kleinbuchstaben umgewandelt.
Normalisierung von Geldbeträgen:Entfernen Sie bei Labels mit dem Datentyp
money
die vor- und nachgestellten Währungssymbole.
Tabellarische Entitäten
Übergeordnete Entitäten und Anmerkungen haben keine Textwerte und werden anhand der kombinierten Begrenzungsboxen ihrer untergeordneten Elemente abgeglichen. Wenn es nur ein vorhergesagtes übergeordnetes Element und ein annotiertes übergeordnetes Element gibt, werden sie unabhängig von den Begrenzungsrahmen automatisch abgeglichen.
Sobald übergeordnete Entitäten zugeordnet wurden, werden ihre untergeordneten Entitäten so zugeordnet, als wären sie nicht tabellarische Entitäten. Wenn übergeordnete Elemente nicht abgeglichen werden, versucht Document AI nicht, ihre untergeordneten Elemente abzugleichen. Das bedeutet, dass untergeordnete Entitäten auch bei gleichem Textinhalt als falsch eingestuft werden können, wenn ihre übergeordneten Entitäten nicht übereinstimmen.
Eltern-/Kind-Entitäten sind eine Vorschaufunktion und werden nur für Tabellen mit einer Verschachtelungsebene unterstützt.
Bewertungsmesswerte exportieren
Rufen Sie in der Google Cloud Console die Seite Prozessoren auf und wählen Sie Ihren Prozessor aus.
Klicken Sie auf dem Tab Bewerten und testen auf Messwerte herunterladen, um die Bewertungsmesswerte als JSON-Datei herunterzuladen.