Benutzerdefinierter Splitter
Mit dem benutzerdefinierten Splitter können Sie zusammengesetzte Dokumente (Dokumente aus mehreren Klassen) in eine Reihe von Dokumenten mit einer einzelnen Klasse aufteilen, indem Sie jedes logische Dokument identifizieren. Ein Hypothekenpaket enthält beispielsweise mehrere Klassen, z. B. Antrag, Einkommensnachweis und Lichtbildausweis. Damit benutzerdefinierte Splitter-Prozessoren verwendet werden können, werden sie von Grund auf mit Ihren eigenen Dokumenten und benutzerdefinierten Klassen.
Beschreibung und Verwendung des Splitters
Sie erstellen benutzerdefinierte Splitter, die speziell auf Ihre Dokumente zugeschnitten sind und mit Ihren Daten trainiert und ausgewertet werden. Dieser Prozessor identifiziert Dokumentklassen aus einer benutzerdefinierten Gruppe von Klassen. Sie können diesen trainierten Prozessor dann für Produktionsdokumente verwenden. In der Regel verwenden Sie einen benutzerdefinierten Splitter für Dateien, die aus verschiedenen Arten logischer Dokumente bestehen, und übergeben die Dokumente dann mithilfe der Klassenidentifikation an einen geeigneten Extraktionsprozessor, um die Entitäten zu extrahieren.
Da ML-Modelle nicht perfekt sind und eine bestimmte Fehlerrate haben und Fehler bei der Aufteilung in der Regel sehr problematisch sind (eine fehlerhafte Aufteilung macht zwei Dokumente falsch und verursacht Extraktionsfehler), empfiehlt es sich, immer eine manuelle Überprüfung nach der Aufteilung der Vorhersage, aber vor der eigentlichen Dateiaufteilung zu haben. Je nach Geschäftsanforderungen gibt es Alternativen zur manuellen Überprüfung:
- Verwenden Sie die Konfidenzwerte in der Vorhersage, um zu entscheiden, ob die manuelle Überprüfung übersprungen werden soll (wenn sie hoch genug ist). Dieser Konfidenzgrenzwert sollte anhand von Verlaufsdaten zu Fehlerraten bei bestimmten Konfidenzwerten bestimmt werden. Dies sollte eine Geschäftsentscheidung auf der Grundlage der Geschäftsprozesstoleranz für Fehler und Anforderungen sein, um die manuelle Überprüfung zu umgehen.
- In einigen Anwendungsfällen können die aufgeteilten Dokumente gemäß der vorhergesagten Klasse direkt an den entsprechenden Extractor weitergeleitet werden. Wenn die Extraktion unvollständig ist oder niedrige Konfidenzwerte hat, isolieren Sie die aufgeteilten Dokumente und lösen Sie das ursprüngliche zusammengesetzte Dokument und die Aufteilungsentscheidung aus, um sie dann zu überprüfen. Das erfordert recht komplexe Workflow-Anforderungen.
Benutzerdefinierten Splitter in der Google Cloud Console erstellen
In dieser Kurzanleitung wird beschrieben, wie Sie mit Document AI einen benutzerdefinierten Splitter erstellen und trainieren, der Beschaffungsdokumente teilt und klassifiziert. Die meiste Dokumentvorbereitung ist abgeschlossen, sodass Sie sich auf das Erstellen einer benutzerdefinierten Aufteilung konzentrieren können.
Ein typischer Workflow zum Erstellen und Verwenden eines benutzerdefinierten Splitters sieht so aus:
- Erstellen Sie einen benutzerdefinierten Splitter in Document AI.
- Erstellen Sie ein Dataset mit einem leeren Cloud Storage-Bucket.
- Definieren und erstellen Sie ein Prozessorschema (Klassen).
- Importieren Sie Dokumente.
- Weisen Sie den Trainings- und Testsets Dokumente zu.
- Annotieren Sie Dokumente manuell in Document AI Workbench oder über Labeling-Aufgaben.
- Trainieren Sie den Prozessor.
- Bewerten Sie den Prozessor.
- Stellen Sie den Prozessor bereit.
- Testen Sie den Prozessor.
- Verwenden Sie den Prozessor für Ihre Dokumente.
Wenn Sie Ihre Dokumente nach Kurs in separaten Ordnern abgelegt haben, können Sie Schritt 6 überspringen, indem Sie den Kurs beim Import angeben.
Klicken Sie auf Anleitung, um eine detaillierte Anleitung für diese Aufgabe direkt in der Google Cloud Console aufzurufen.
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Prozessor erstellen
Rufen Sie in der Google Cloud Console im Bereich „Document AI“ die Seite Workbench auf.
Wählen Sie unter Benutzerdefinierter Dokument-Splitter die Option
Prozessor erstellen aus.Geben Sie im Menü Prozessor erstellen einen Namen für den Prozessor ein, z. B.
my-custom-document-splitter
.Wählen Sie die Region aus, die Ihnen am nächsten ist.
Wählen Sie Erstellen aus. Der Tab Details zum Prozessor wird angezeigt.
Dataset konfigurieren
Zum Trainieren dieses neuen Prozessors müssen Sie ein Dataset mit Trainings- und Testdaten erstellen, damit der Prozessor die zu klassifizierenden und aufzuteilenden Dokumente leichter identifizieren kann.
Für dieses Dataset ist ein neuer Speicherort erforderlich. Dies kann ein leerer Cloud Storage-Bucket oder -Ordner sein oder Sie können einen von Google verwalteten (internen) Speicherort zulassen.
- Wenn Sie von Google verwalteten Speicherplatz verwenden möchten, wählen Sie diese Option aus.
- Wenn Sie Ihren eigenen Speicher verwenden möchten, um vom Kunden verwaltete Verschlüsselungsschlüssel (CMEKs) zu verwenden, wählen Sie Ich gebe einen eigenen Speicherort an aus und folgen Sie der Anleitung weiter unten.
Cloud Storage-Bucket für das Dataset erstellen
Wechseln Sie zum Tab
Trainieren des Prozessors.Wählen Sie Dataset-Speicherort festlegen aus. Sie werden aufgefordert, einen leeren Cloud Storage-Bucket oder -Ordner auszuwählen oder zu erstellen.
Wählen Sie Durchsuchen aus, um Ordner auswählen zu öffnen.
Klicken Sie auf das Symbol Neuen Bucket erstellen und folgen Sie den Anweisungen, um einen neuen Bucket zu erstellen. Nachdem Sie den Bucket erstellt haben, wird die Seite Ordner auswählen für diesen Bucket angezeigt. Weitere Informationen zum Erstellen eines Cloud Storage-Buckets finden Sie in Cloud Storage-Buckets.
Klicken Sie auf der Seite Ordner auswählen für Ihren Bucket auf die Schaltfläche Auswählen unten im Dialogfeld.
Geben Sie im Feld Zielpfad den von Ihnen ausgewählten Bucket-Namen ein. Wählen Sie Dataset erstellen aus. Das Erstellen des Datasets kann mehrere Minuten dauern.
Prozessorschema definieren
Sie können das Prozessorschema entweder vor oder nach dem Importieren von Dokumenten in Ihr Dataset erstellen. Das Schema enthält Labels, mit denen Sie Dokumente mit Anmerkungen versehen können.
Wählen Sie im Tab Trainieren links unten die Option
Schema bearbeiten aus. Die Seite Labels verwalten wird geöffnet.Label erstellen auswählen:Geben Sie einen Namen für das Label ein. Wählen Sie Erstellen aus. Eine ausführliche Anleitung zum Erstellen und Bearbeiten eines Schemas finden Sie in Prozessorschema definieren.
Erstellen Sie folgende Labels für das Prozessorschema.
bank_statement
form_1040
form_w2
form_w9
paystub
Wählen Sie abschließend die Option
Speichern aus.
Dokument ohne Labels in ein Dataset importieren
Im nächsten Schritt importieren Sie Dokumente ohne Labels in Ihr Dataset und kennzeichnen sie mit Labels. Eine empfohlene Alternative ist der Import von Dokumenten, die nach Kursen sortiert in Ordnern organisiert sind, sofern verfügbar.
Wenn Sie an Ihrem eigenen Projekt arbeiten, entscheiden Sie, wie Sie Ihre Daten mit Labels versehen. Weitere Informationen zu Labeling-Optionen.
Benutzerdefinierte Document AI-Prozessoren benötigen sowohl im Trainings- als auch im Testset mindestens 10 Dokumente sowie jeweils 10 Instanzen jedes Labels pro Set. Für eine optimale Leistung empfehlen wir mindestens 50 Dokumente pro Satz mit 50 Instanzen pro Label. Im Allgemeinen führen mehr Trainingsdaten zu einer höheren Genauigkeit.
Wählen Sie im Tab Trainieren die Option
Dokumente importieren aus.In diesem Beispiel geben Sie den Pfad in das Feld
Quellpfad ein. Es enthält ein PDF-Dokument.cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-Unlabeled
Legen Sie das
Dokumentlabel auf Keine fest.Legen Sie das Drop-down-Menü
Dataset-Aufteilung auf Nicht zugewiesen fest.Das Dokument in diesem Ordner erhält kein Label oder ist standardmäßig dem Test- oder Trainingssatz zugewiesen.
Wählen Sie
Importieren aus. Document AI liest die Dokumente aus dem Bucket in das Dataset. Der Import-Bucket wird nicht geändert und es wird nicht aus dem Bucket gelesen, nachdem der Import abgeschlossen ist.
Wenn Sie Dokumente importieren, können Sie die Dokumente entweder dem beim Importieren festgelegten Training oder Test zuweisen oder die Zuweisungen später vornehmen.
Wenn Sie ein oder mehrere importierte Dokumente löschen möchten, wählen Sie sie auf dem Tab Trainieren aus und wählen Sie Löschen aus.
Weitere Informationen zur Vorbereitung Ihrer Daten für den Import finden Sie im Leitfaden zur Datenvorbereitung.
Optional: Dokumente beim Import im Batch mit Labels versehen
Sie können alle Dokumente, die sich in einem bestimmten Verzeichnis befinden, beim Import mit Labels versehen, um Zeit beim Labeling zu sparen. Wenn Ihre Schulungsdokumente nach Kursen in Ordnern organisiert sind, können Sie das Feld Dokumentlabel verwenden, um die Klasse für diese Dokumente anzugeben und zu vermeiden, dass jedes Dokument manuell mit Labels versehen wird.
In der Abbildung sind Bank_statements und Bank_statements mit definierten Labels
(Dokumentklassen) verfügbar, die Sie auswählen können. Oder Sie können mit CREATE LABEL
eine neue
Klasse definieren.
- Klicken Sie auf Dokumente importieren.
Geben Sie unter Quellpfad den folgenden Pfad ein. Dieser Bucket enthält Dokumente ohne Label im PDF-Format.
cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
Wählen Sie in der Drop-down-Liste Datenaufteilung die Option Automatisch aufteilen. Dadurch werden die Dokumente automatisch so aufgeteilt, dass 80 % im Trainingsset und 20 % im Testset enthalten sind.
Wählen Sie im Bereich Labels anwenden die Option Label auswählen aus.
Wählen Sie für diese Beispieldokumente „Sonstiges“ aus.
Klicken Sie auf Importieren und warten Sie, bis die Dokumente importiert wurden. Sie können diese Seite in der Zwischenzeit verlassen und später wieder zurückkehren.
Dokument mit Label versehen
Das Anwenden von Labels auf ein Dokument wird als Annotation bezeichnet.
Kehren Sie zum Tab Trainieren zurück und wählen Sie
ein Dokument aus, um die Konsole Labelverwaltung zu öffnen.Dieses Dokument enthält mehrere Seitengruppen, die identifiziert und mit Labels versehen werden müssen. Zuerst müssen Sie die Aufteilungspunkte festlegen. Bewegen Sie den Mauszeiger in der Bildansicht zwischen die Seiten 1 und 2 und wählen Sie das Symbol
+ aus.Erstellen Sie Aufteilungspunkte vor den folgenden Seitenzahlen: 2, 3, 4 und 5.
Die Console sollte dann so aussehen:
Wählen Sie im
Drop-down-Menü Dokumenttyp das entsprechende Label für jede Seitengruppe aus.Seite(n) Dokumenttyp 1 paystub
2 form_w9
3 bank_statement
4 form_w2
5 und 6 form_1040
Das mit einem Label versehene Dokument sollte nach Abschluss so aussehen:
Wählen Sie
Als „Mit Label versehen“ markieren aus, wenn Sie das Dokument fertig annotiert haben.Auf dem Tab Trainieren im linken Bereich wird angezeigt, dass ein Dokument mit einem Label versehen wurde.
Dem Trainingsset ein kommentiertes Dokument zuweisen
Nachdem Sie dieses Beispieldokument mit einem Label versehen haben, können Sie es dem Trainingsset zuweisen.
Klicken Sie auf dem Tab Trainieren auf das Kästchen
Alle auswählen .Wählen Sie in der Drop-down-Liste
Zu Set zuweisen Training aus.
Im linken Bereich ist zu sehen, dass dem Trainingsset ein Dokument zugewiesen wurde.
Daten mit Batch-Labeling importieren
Als Nächstes importieren Sie PDF-Dateien ohne Labels, die nach Typ in verschiedene Cloud Storage-Ordner sortiert sind. Mit der Funktion „Labeling per Batch“ sparen Sie Zeit beim Labeling, weil Labels bereits beim Import anhand des Pfads zugewiesen werden.
Wählen Sie im Tab Trainieren die Option
Dokumente importieren aus.Geben Sie unter
Quellpfad den folgenden Pfad ein. Dieser Ordner enthält PDFs mit Kontoauszügen.cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/bank-statement
Legen Sie das
Dokumentlabel alsbank_statement
fest.Wählen Sie im Menü
Dataset-Aufteilung die Option Automatisch aufteilen aus. Dadurch werden die Dokumente automatisch so aufgeteilt, dass 80 % im Trainingsset und 20 % im Testset enthalten sind.Wählen Sie
Weiteren Ordner hinzufügen aus, um weitere Ordner hinzuzufügen.Wiederholen Sie die vorherigen Schritte mit den folgenden Pfaden und Dokumentlabels:
Bucket-Pfad Dokumentlabel cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/1040
form_1040
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w2
form_w2
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/w9
form_w9
cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-BatchLabel/paystub
paystub
Die Konsole sollte dann so aussehen:
Wählen Sie
Importieren aus. Der Import dauert einige Minuten.
Wenn der Import abgeschlossen ist, finden Sie die Dokumente auf dem Tab Trainieren.
Daten mit Labels importieren
In dieser Anleitung erhalten Sie vorab gekennzeichnete Daten im Format Document
als JSON-Dateien.
Dies ist dasselbe Format, das Document AI bei der Verarbeitung eines Dokuments, der Kennzeichnung mit Human in the Loop oder dem Exportieren eines Datasets ausgibt.
Wählen Sie im Tab Trainieren die Option
Dokumente importieren aus.Geben Sie unter
Quellpfad den folgenden Pfad ein.cloud-samples-data/documentai/Custom/Lending-Splitter/JSON-Labeled
Legen Sie das
Dokumentlabel auf Keine fest.Legen Sie das Drop-down-Menü
Dataset-Aufteilung auf Automatisch aufteilen fest.Wählen Sie
Importieren aus.
Wenn der Import abgeschlossen ist, finden Sie die Dokumente auf dem Tab Trainieren.
Prozessor trainieren
Nachdem Sie die Trainings- und Testdaten importiert haben, können Sie den Prozessor trainieren. Da das Training mehrere Stunden dauern kann, sollten Sie den Prozessor mit den entsprechenden Daten und Labels einrichten, bevor Sie mit dem Training beginnen.
Wählen Sie
Neue Version trainieren aus.Geben Sie im Feld
Versionsname einen Namen für diese Prozessorversion ein, z. B.my-cds-version-1
.Optional: Wählen Sie Labelstatistiken anzeigen aus, um Informationen zu den Dokumentlabels aufzurufen. So können Sie Ihre Abdeckung besser einschätzen. Wählen Sie Schließen aus, um zur Trainingseinrichtung zurückzukehren.
Wählen Sie
Training starten aus. Sie können den Status im rechten Bereich prüfen.
Prozessorversion bereitstellen
Wechseln Sie nach Abschluss des Trainings zum Tab
Versionen verwalten . Sie können sich Details zur gerade trainierten Version ansehen.Wählen Sie rechts neben der Version, die Sie bereitstellen möchten, das
Dreipunkt-Menü aus und wählen Sie Version bereitstellen.Wählen Sie im Pop-up-Fenster
Bereitstellen .Die Bereitstellung kann mehrere Minuten dauern.
Prozessor bewerten und testen
Wechseln Sie nach Abschluss der Bereitstellung zum Tab
Bewerten und Testen .Auf dieser Seite sehen Sie Bewertungsmesswerte wie den F1-Wert, die Genauigkeit und die Trefferquote für das gesamte Dokument sowie einzelne Labels. Weitere Informationen zu Auswertungen und Statistiken finden Sie in Prozessor auswerten.
Laden Sie ein Dokument herunter, das nicht an vorherigen Trainings oder Tests beteiligt war, damit Sie es zur Bewertung der Prozessorversion verwenden können. Wenn Sie eigene Daten nutzen, verwenden Sie ein speziell dafür gedachtes Dokument.
Wählen Sie
Testdokument hochladen aus und wählen Sie das Dokument aus, das Sie gerade heruntergeladen haben.Die Seite Benutzerdefinierte Splitter-Analyse wird geöffnet. Die Bildschirmausgabe zeigt, wie gut das Dokument aufgeteilt und klassifiziert wurde.
Die Konsole sollte dann so aussehen:
Sie können die Bewertung auch noch einmal mit einem anderen Testset oder einer anderen Prozessorversion ausführen.
Optional: Daten mit automatischem Labeling importieren
Nachdem Sie eine trainierte Prozessorversion bereitgestellt haben, können Sie mithilfe der automatischen Labelerstellung beim Importieren neuer Dokumente Zeit bei der Labelerstellung sparen.
Wählen Sie im Tab Trainieren die Option
Dokumente importieren aus.Geben Sie unter
Quellpfad den folgenden Pfad ein. Dieser Ordner enthält PDFs aus mehreren Dokumenttypen ohne Labels.cloud-samples-data/documentai/Custom/Lending-Splitter/PDF-CDS-AutoLabel
Legen Sie das
Dokumentlabel als Automatisches Label fest.Legen Sie das Drop-down-Menü
Dataset-Aufteilung auf Automatisch aufteilen fest.Legen Sie im Bereich Automatisches Labeling die
Version als die zuvor trainierte Version fest.- Beispiel:
2af620b2fd4d1fcf
- Beispiel:
Wählen Sie
Importieren und warten Sie, bis die Dokumente importiert wurden.Automatisch mit Labels versehene Dokumente können nicht für Trainings- oder Testzwecke verwendet werden, ohne sie als „Mit Label versehen“ zu markieren. Rufen Sie den Bereich
Automatisch mit Label versehen auf, um die automatisch gekennzeichneten Dokumente anzusehen.Wählen Sie das erste Dokument aus, um die Labeling-Konsole aufzurufen.
Prüfen Sie, ob das Label korrekt ist, und passen Sie es gegebenenfalls an.
Wenn Sie fertig sind, wählen Sie
Als „Mit Label versehen“ markieren aus.Wiederholen Sie die Labelüberprüfung für jedes Dokument mit automatisch hinzugefügten Labels.
Kehren Sie zur Seite Trainieren zurück und wählen Sie Neue Version trainieren aus, um die Daten für das Training zu verwenden.
Prozessor verwenden
Sie haben jetzt einen benutzerdefinierten Splitter-Prozessor erstellt und trainiert.
Sie können Ihre benutzerdefiniert trainierten Prozessorversionen wie jede andere Prozessorversion verwalten. Weitere Informationen finden Sie in Prozessorversionen verwalten.
Nach der Bereitstellung können Sie eine Verarbeitungsanfrage an Ihren benutzerdefinierten Prozessor senden. Die Antwort kann genau wie andere Splitter-Prozessoren verarbeitet werden.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:
Um unnötige Google Cloud -Gebühren zu vermeiden, verwenden Sie die Google Cloud Console, um den Prozessor und das Projekt zu löschen, wenn Sie diese nicht mehr benötigen.
Wenn Sie ein neues Projekt erstellt haben, um mehr über Document AI zu erfahren, und dieses Projekt nicht mehr benötigen, löschen Sie das Projekt.
Wenn Sie ein vorhandenes Google Cloud -Projekt verwendet haben, löschen Sie die von Ihnen erstellten Ressourcen. So vermeiden Sie, dass Ihrem Konto Gebühren in Rechnung gestellt werden:
Wählen Sie im Navigationsmenü der Google Cloud Console Document AI und dann Meine Prozessoren aus.
Wählen Sie in der Zeile, in der sich der zu löschende Prozessor befindet,
Weitere Aktionen aus.Wählen Sie Prozessor löschen aus, geben Sie den Namen des Prozessors ein und wählen Sie zur Bestätigung noch einmal Löschen aus.