Benutzerdefinierten Dokumentklassifikator in der Google Cloud Console erstellen

Der benutzerdefinierte Klassifikator dient der Klassifizierung von Dokumenten. Es ist von Grund auf neu aufgebaut mithilfer Ihrer eigenen Dokumente und benutzerdefinierte Klassen.

Benutzerdefinierten Klassifikator in der Google Cloud Console erstellen

Sie können benutzerdefinierte Klassifikatoren erstellen, die speziell auf Ihre Dokumente zugeschnitten sind und mit Ihren Daten trainiert und ausgewertet werden. Dieser Prozessor identifiziert Dokumentklassen aus einer benutzerdefinierten Gruppe von Klassen. Sie können diesen trainierten Prozessor dann für zusätzliche Dokumente verwenden. In der Regel verwenden Sie einen benutzerdefinierten Klassifikator für Dokumente verschiedener Typen und übergeben die Dokumente dann mithilfe der Identifizierung an einen Extraktionsprozessor, um die Entitäten zu extrahieren.

Ein typischer Workflow zum Erstellen und Verwenden eines benutzerdefinierten Klassifikators sieht so aus:

  1. Erstellen Sie einen benutzerdefinierten Klassifikator in Document AI.
  2. Erstellen Sie ein Dataset mit einem leeren Cloud Storage-Bucket.
  3. Importieren Sie Dokumente.
  4. Annotieren Sie Dokumente manuell in Document AI Workbench oder über Labeling-Aufgaben.
  5. Weisen Sie den Trainings- und Testsets Dokumente zu.
  6. Trainieren Sie den Prozessor.
  7. Bewerten Sie den Prozessor.
  8. Stellen Sie den Prozessor bereit.
  9. Testen Sie den Prozessor.
  10. Verwenden Sie den Prozessor für Ihre Dokumente.

Sie können eigene Konfigurationsentscheidungen treffen, die zu Ihrem Workflow passen.


Klicken Sie auf Anleitung, um eine detaillierte Anleitung für diese Aufgabe direkt in der Google Cloud Console aufzurufen.

Anleitung


Hinweise

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

Prozessor erstellen

1. Rufen Sie die Google Cloud Console auf und wählen Sie dann Folgendes aus: Workbench
  1. Wählen Sie unter Benutzerdefinierter Dokument-Splitter die Option Prozessor erstellen aus.

    custom-classifier-1

  2. Geben Sie im Menü Prozessor erstellen einen Namen für den Prozessor ein, z. B. my-custom-document-classifier.

    custom-classifier-2

  3. Wählen Sie die Region aus, die Ihnen am nächsten ist.

  4. Wählen Sie Erstellen aus. Der Tab Details zum Prozessor wird angezeigt.

Dataset konfigurieren

Zum Trainieren dieses neuen Prozessors müssen Sie ein Dataset mit Trainings- und Testdaten erstellen, damit der Prozessor die zu klassifizierenden und aufzuteilenden Dokumente leichter identifizieren kann.

Für dieses Dataset ist ein neuer Speicherort erforderlich. Dies kann ein leerer Cloud Storage-Bucket oder -Ordner sein oder Sie können einen intern verwalteten Standort zulassen.

Wenn der Tab Prozessordetails angezeigt wird, können Sie Folgendes tun:

  • Wählen Sie Von Google verwalteter Speicher aus, wenn Sie Cloud Storage verwenden möchten.
  • Wählen Sie Ich gebe meinen eigenen Speicherort an aus, wenn Sie Ihren eigenen Speicher verwenden möchten, um vom Kunden verwaltete Verschlüsselungsschlüssel (CMEKs) zu verwenden. Folgen Sie dann der nachfolgenden Anleitung.

custom-classifier-3

Cloud Storage-Bucket für das Dataset erstellen

  1. Tab Trainieren Ihres Prozessors auswählen.

  2. Dataset-Speicherort festlegen auswählen: Sie werden aufgefordert, einen leeren Cloud Storage-Bucket oder -Ordner auszuwählen oder zu erstellen.

    custom-classifier-4

  3. Wählen Sie Durchsuchen aus, um Ordner auswählen zu öffnen.

  4. Klicken Sie auf das Symbol Neuen Bucket erstellen und folgen Sie den Anweisungen, um einen neuen Bucket zu erstellen. Weitere Informationen zum Erstellen eines Cloud Storage-Buckets finden Sie in Cloud Storage-Buckets.

    Hinweis: Ein Bucket ist die übergeordnete Speicherentität, in der Sie Ordner verschachteln können. Anstatt einen Bucket zu erstellen und auszuwählen, können Sie auch einen leeren Ordner in einem vorhandenen Bucket erstellen und auswählen. Weitere Informationen finden Sie unter Simulierte Ordner in Cloud Storage.

    Nachdem Sie den Bucket erstellt haben, wird die Seite Ordner auswählen für diesen Bucket angezeigt.

  5. Wählen Sie auf der Seite Ordner auswählen für Ihren Bucket das Schaltfläche Auswählen unten im Dialogfeld aus.

    custom-classifier-5

  6. Geben Sie im Feld Zielpfad den von Ihnen ausgewählten Bucket-Namen ein. Wählen Sie Dataset erstellen aus. Das Erstellen des Datasets kann mehrere Minuten dauern.

Dokumente in ein Dataset importieren

Als Nächstes importieren Sie Ihre Dokumente in Ihr Dataset.

  1. Wählen Sie im Tab Trainieren die Option Dokumente importieren aus.

    custom-classifier-6

  2. In diesem Beispiel geben Sie diesen Bucket-Namen unter Quellpfad ein. Dadurch wird direkt auf ein Dokument verwiesen.

    cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
    
  3. Wählen Sie für Datenaufteilung die Option Nicht zugewiesen. Das Dokument in diesem Ordner ist nicht dem Test- oder Trainings-Dataset zugewiesen. Das Häkchen bei Mit automatischem Labeling importieren darf nicht gesetzt sein.

  4. Wählen Sie Importieren aus. Document AI liest die Dokumente aus dem Bucket in das Dataset. Der Import-Bucket wird nicht geändert und es wird nicht aus dem Bucket gelesen, nachdem der Import abgeschlossen ist.

Wenn Sie Dokumente importieren, können Sie die Dokumente entweder dem beim Importieren festgelegten Training oder Test zuweisen oder die Zuweisungen später vornehmen.

Wenn Sie ein oder mehrere importierte Dokumente löschen möchten, wählen Sie sie auf dem Tab Trainieren aus und wählen Sie Löschen aus.

Weitere Informationen zur Vorbereitung Ihrer Daten für den Import finden Sie im Leitfaden zur Datenvorbereitung.

Prozessorschema definieren

Sie können das Prozessorschema entweder vor oder nach dem Importieren von Dokumenten in Ihr Dataset erstellen. Das Schema enthält Labels, mit denen Sie Dokumente mit Anmerkungen versehen können.

  1. Wählen Sie im Tab Trainieren links unten die Option Schema bearbeiten aus. Die Seite Labels verwalten wird geöffnet.

  2. Label erstellen auswählen:

  3. Geben Sie einen Namen für das Label ein. Wählen Sie den Datentyp aus: Wählen Sie Erstellen aus. Eine ausführliche Anleitung zum Erstellen und Bearbeiten eines Schemas finden Sie in Prozessorschema definieren.

  1. Erstellen Sie folgende Labels für das Prozessorschema.

    Name Datentyp
    computer_vision Dokumenttyp
    crypto Dokumenttyp
    med_tech Dokumenttyp
    other Dokumenttyp
  2. Wählen Sie abschließend die Option Speichern aus.

    custom-classifier-7

Dokument mit Label versehen

Das Auswählen von Text in einem Dokument und das Anwenden von Labels wird als Annotation bezeichnet.

  1. Kehren Sie zum Tab Trainieren zurück und wählen Sie ein Dokument aus, um die Konsole Labelverwaltung zu öffnen.

  2. Wählen Sie im Drop-down-Menü Dokumenttyp das entsprechende Label für das Dokument aus.

  3. Wenn Sie das bereitgestellte Beispieldokument verwenden, wählen Sie computer_vision aus.

    Das mit einem Label versehene Dokument sollte nach Abschluss so aussehen: custom-classifier-8

  4. Wählen Sie Als „Mit Label versehen“ markieren aus, wenn Sie das Dokument fertig annotiert haben.

    Auf dem Tab Trainieren im linken Bereich wird angezeigt, dass ein Dokument mit einem Label versehen wurde.

Dem Trainingsset ein kommentiertes Dokument zuweisen

Nachdem Sie dieses Beispieldokument mit einem Label versehen haben, können Sie es dem Trainingsset zuweisen.

  1. Klicken Sie auf dem Tab Trainieren auf das Kästchen Alle auswählen.

  2. Wählen Sie in der Drop-down-Liste Zu Set zuweisen Training aus.

Im linken Bereich ist zu sehen, dass dem Trainingsset ein Dokument zugewiesen wurde.

Mit Labels versehene Daten in Trainings- und Testsets importieren

In diesem Leitfaden finden Sie vorab mit Label versehene Daten.

Wenn Sie an Ihrem eigenen Projekt arbeiten, müssen Sie festlegen, wie Ihre Daten mit Labels versehen werden sollen. Weitere Informationen zu Labeling-Optionen. Benutzerdefinierte Document AI-Prozessoren benötigen sowohl im Trainings- als auch im Testset mindestens 10 Dokumente sowie jeweils 10 Instanzen jedes Labels pro Set. Für eine optimale Leistung empfehlen wir, mindestens 50 Dokumente pro Set und 50 Instanzen pro Label zu erstellen. Im Allgemeinen führen mehr Trainingsdaten zu einer höheren Genauigkeit.

  1. Dokumente importieren auswählen.

  2. Geben Sie unter Quellpfad den folgenden Pfad ein. Dieser Bucket enthält Dokumente mit Labels im Document JSON-Format.

    cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
    
  3. Wählen Sie in der Drop-down-Liste Datenaufteilung die Option Automatisch aufteilen. Dadurch werden die Dokumente automatisch so aufgeteilt, dass 80 % im Trainingsset und 20 % im Testset enthalten sind. Ignorieren Sie den Abschnitt Labels anwenden.

  4. Wählen Sie Importieren aus. Der Import kann mehrere Minuten dauern.

Sobald der Import abgeschlossen ist, werden die Dokumente auf dem Tab Trainieren angezeigt.

Optional: Dokumente beim Import im Batch mit Labels versehen

Nachdem Sie das Schema konfiguriert haben, können Sie alle Dokumente, die sich in einem bestimmten Verzeichnis befinden, beim Import mit Labels versehen, um Zeit beim Labeling zu sparen.

custom-classifier-9

  1. Dokumente importieren auswählen.

  2. Geben Sie unter Quellpfad den folgenden Pfad ein. Dieser Bucket enthält Dokumente ohne Label im PDF-Format.

    cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
    
  3. Wählen Sie in der Drop-down-Liste Datenaufteilung die Option Automatisch aufteilen. Dadurch werden die Dokumente automatisch so aufgeteilt, dass 80 % im Trainingsset und 20 % im Testset enthalten sind.

  4. Wählen Sie im Bereich Labels anwenden die Option Label auswählen aus.

  5. Wählen Sie für diese Beispieldokumente other aus.

  6. Wählen Sie Importieren aus und warten Sie, bis der Vorgang abgeschlossen ist. Sie können diese Seite in der Zwischenzeit verlassen und später wieder zurückkehren. Anschließend finden Sie die Dokumente mit dem angewendeten Label auf dem Tab Trainieren.

Prozessor trainieren

Nachdem Sie die Trainings- und Testdaten importiert haben, können Sie den Prozessor trainieren. Da das Training mehrere Stunden dauern kann, sollten Sie den Prozessor mit den entsprechenden Daten und Labels einrichten, bevor Sie mit dem Training beginnen.

  1. Wählen Sie Neue Version trainieren aus.

  2. Geben Sie im Feld Versionsname einen Namen für diese Prozessorversion ein, z. B. my-cdc-version-1.

  3. Optional: Wählen Sie Labelstatistiken anzeigen aus, um Informationen zu den Dokumentlabels aufzurufen. So können Sie Ihre Abdeckung besser einschätzen. Wählen Sie Schließen aus, um zur Trainingseinrichtung zurückzukehren.

  4. Wählen Sie Training starten aus. Sie können den Status im rechten Bereich prüfen.

Prozessorversion bereitstellen

  1. Wechseln Sie nach Abschluss des Trainings zum Tab Versionen verwalten. Sie können sich Details zur gerade trainierten Version ansehen.

  2. Wählen Sie rechts neben der Version, die Sie bereitstellen möchten, das Dreipunkt-Menü aus und wählen Sie Version bereitstellen.

  3. Wählen Sie im Pop-up-Fenster Bereitstellen.

    Die Bereitstellung kann mehrere Minuten dauern.

Prozessor bewerten und testen

  1. Wechseln Sie nach Abschluss der Bereitstellung zum Tab Bewerten und Testen.

    Auf dieser Seite sehen Sie Bewertungsmesswerte wie den F1-Wert, die Genauigkeit und die Trefferquote für das gesamte Dokument sowie einzelne Labels. Weitere Informationen zu Auswertungen und Statistiken finden Sie in Prozessor auswerten.

  2. Laden Sie ein Dokument herunter, das nicht an vorherigen Trainings oder Tests beteiligt war, damit Sie es zur Bewertung der Prozessorversion verwenden können. Wenn Sie eigene Daten nutzen, verwenden Sie ein speziell dafür gedachtes Dokument.

    PDF herunterladen

  3. Wählen Sie Testdokument hochladen und wählen Sie das Dokument aus, das Sie gerade heruntergeladen haben.

    Die Seite Analyse des benutzerdefinierten Dokumentklassifikators wird geöffnet. Die Ausgabe zeigt, wie gut das Dokument klassifiziert wurde.

    Sie können die Bewertung auch noch einmal mit einem anderen Testset oder einer anderen Prozessorversion ausführen.

Optional: neu importierte Dokumente automatisch mit Labels versehen

Nachdem Sie eine trainierte Prozessorversion bereitgestellt haben, können Sie mithilfe der automatischen Labelerstellung beim Importieren neuer Dokumente Zeit bei der Labelerstellung sparen.

  1. Klicken Sie auf der Seite Trainieren auf Dokumente importieren.

  2. Kopieren Sie den folgenden Cloud Storage-Pfad und fügen Sie ihn ein. Dieses Verzeichnis enthält fünf Patent-PDFs ohne Labels. Wählen Sie in der Drop-down-Liste Datenaufteilung die Option Training aus.

    cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
    
  3. Wählen Sie im Bereich Labels anwenden die Option Automatisches Labeling aus.

  4. Wählen Sie eine vorhandene Prozessorversion aus, um den Dokumenten Labels hinzuzufügen.

    • Beispiel: 2af620b2fd4d1fcf
  5. Wählen Sie Importieren aus und warten Sie, bis der Vorgang abgeschlossen ist. Sie können diese Seite in der Zwischenzeit verlassen und später wieder zurückkehren. Anschließend werden die Dokumente auf der Seite Trainieren im Bereich Automatisch mit Label versehen angezeigt.

  6. Automatisch mit Labels versehene Dokumente können nicht für Trainings- oder Testzwecke verwendet werden, ohne sie als „Mit Label versehen“ zu markieren. Rufen Sie den Bereich Automatisch mit Label versehen auf, um die automatisch gekennzeichneten Dokumente anzusehen.

  7. Wählen Sie das erste Dokument aus, um die Labeling-Konsole aufzurufen.

  8. Prüfen Sie, ob das Label korrekt ist. Korrigieren Sie die Angabe, falls sie falsch ist.

  9. Wenn Sie fertig sind, wählen Sie Als „Mit Label versehen“ markieren aus.

  10. Wiederholen Sie die Labelüberprüfung für jedes Dokument mit automatischem Label und kehren Sie dann zur Seite Trainieren zurück, um die Daten für das Training zu verwenden.

Prozessor verwenden

Sie haben jetzt einen benutzerdefinierten Klassifikator für die Dokumentklassifizierung erstellt und trainiert.

Sie können Ihre benutzerdefiniert trainierten Prozessorversionen wie jede andere Prozessorversion verwalten. Weitere Informationen finden Sie in Prozessorversionen verwalten.

Sie können eine Verarbeitungsanfrage an Ihren benutzerdefinierten Prozessor senden. Die Antwort wird wie die anderer Klassifikatorprozessoren verarbeitet.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

Um unnötige Google Cloud -Gebühren zu vermeiden, verwenden Sie die Google Cloud Console, um den Prozessor und das Projekt zu löschen, wenn Sie diese nicht mehr benötigen.

Wenn Sie ein neues Projekt erstellt haben, um mehr über Document AI zu erfahren, und dieses Projekt nicht mehr benötigen, löschen Sie das Projekt.

Wenn Sie ein vorhandenes Google Cloud -Projekt verwendet haben, löschen Sie die von Ihnen erstellten Ressourcen. So vermeiden Sie, dass Ihrem Konto Gebühren in Rechnung gestellt werden:

  1. Wählen Sie im Navigationsmenü der Google Cloud Console Document AI und dann Meine Prozessoren aus.

  2. Wählen Sie in der Zeile, in der sich der zu löschende Prozessor befindet, Weitere Aktionen aus.

  3. Wählen Sie Prozessor löschen aus, geben Sie den Namen des Prozessors ein und wählen Sie zur Bestätigung noch einmal Löschen aus.

Nächste Schritte