Übersicht: Document AI

In diesem Dokument werden die grundlegenden Konzepte der Verwendung von Document AI erläutert. Lesen Sie diese Seite, bevor Sie mit anderen Dokumenten oder Kurzanleitungen fortfahren.

Workflows zur Dokumentverarbeitung automatisieren

Unternehmen auf der ganzen Welt verlassen sich stark auf Dokumente, um Informationen zu speichern und zu übermitteln. Diese Informationen müssen oft digitalisiert werden, damit sie nützlich sind. Dies geschieht jedoch in der Regel durch zeitaufwendige manuelle Prozesse.

Beispiel:

  • Bücher für E-Reader digitalisieren.
  • Verarbeitung von Aufnahmeformularen in Arztpraxen
  • Belege und Rechnungen werden zur Validierung von Spesenberichten geparst.
  • Authentifizierung der Identität anhand von Ausweisen.
  • Einkommen aus Steuerformularen für die Genehmigung von Krediten extrahieren
  • Verträge mit wichtigen Geschäftsbedingungen verstehen

Bei jedem dieser Workflows wird der Rohtext aus Dokumenten abgerufen und dann bestimmter Text extrahiert, der den erforderlichen Daten (den Feldern oder Entitäten) entspricht. Jeder Dokumenttyp hat jedoch eine andere Struktur und ein anderes Layout und das Feldmuster variiert je nach Anwendungsfall.

Document AI-Komponenten

Document AI ist eine Plattform zur Dokumentverarbeitung und -erkennung, die unstrukturierte Daten aus Dokumenten in strukturierte Daten (spezifische Felder, die für eine Datenbank geeignet sind) umwandelt. So lassen sich die Daten leichter verstehen, analysieren und nutzen.

Document AI basiert auf Produkten in Vertex AI mit generativer KI. So können Sie skalierbare, End-to-End-basierte, cloudbasierte Anwendungen zur Dokumentenverarbeitung erstellen, ohne spezielles Fachwissen im Bereich maschinelles Lernen zu haben.

Mit Document AI haben Sie folgende Möglichkeiten:

  • Dokumente mit OCR digitalisieren, um Text, Layout und verschiedene Add-ons wie die Bildqualitätserkennung (für bessere Lesbarkeit) und die automatische Bildentzerrung zu erhalten.
  • Text- und Layoutinformationen aus Dokumentdateien extrahieren und Entitäten normalisieren.
  • Schlüssel/Wert-Paare (KVP) in strukturierten Formularen und regulären Tabellen identifizieren Beispiel: Name: Jill Smith ist ein KVp.
  • Klassifizieren Sie Dokumenttypen, um nachgelagerte Prozesse wie Extraktion und Speicherung zu optimieren.
  • Dokumente aufteilen und nach Typ klassifizieren. z. B. eine PDF-Datei mit mehreren echten Dokumenten).
  • Datasets für die Feinabstimmung und Modellbewertung vorbereiten, indem Sie automatisches Labeling, Schemaverwaltung und Dataset-Verwaltungsfunktionen wie die Dokument- und Vorhersageüberprüfung verwenden.
  • Sie können ihn in Produkte wie Cloud Storage, BigQuery und Vertex AI Search einbinden, um Dokumente und Metadaten zu speichern, zu suchen, zu organisieren, zu verwalten und zu analysieren.

Dieses Diagramm zeigt alle wichtigen Schritte der Dokumentverarbeitung, die von Document AI unterstützt werden, und wie sie miteinander verbunden werden können.

docai-overview-1

Prozessor

Ein Document AI-Prozessor liegt zwischen der Dokumentdatei und einem Modell für maschinelles Lernen, das Aktionen zur Dokumentverarbeitung und -erkennung ausführt. Sie können zum Klassifizieren, Aufteilen, Parsen oder Analysieren eines Dokuments verwendet werden.

Für jedes Google Cloud-Projekt müssen eigene Prozessorinstanzen erstellt werden.

Prozessoren fallen in eine der folgenden Kategorien:

  • Digitalisieren: Optische Zeichenerkennung.
  • Extrahieren: Benutzerdefinierter Extrahierer, Formularparser, Layoutparser und vorab trainierte Parser.
  • Klassifizieren: Benutzerdefinierter Klassifikator und benutzerdefinierter Splitter.

Informationen zu allen verfügbaren Prozessortypen für Document AI finden Sie in der vollständigen Liste der Prozessoren und Details.

Welchen Prozessor sollte ich verwenden?

Im Folgenden finden Sie einige allgemeine Richtlinien, die Ihnen bei der Entscheidung für den richtigen Prozessortyp für eine bestimmte Anwendung helfen:

Kategorie Anwendungsfall Prozessortyp
Digitalisieren Text und Layoutinformationen aus Dokumenten extrahieren Enterprise Document OCR
Die Qualität des gescannten Bildes (Lesbarkeit) eines Dokuments analysieren. Enterprise Document OCR mit aktivierter Bildqualitätsanalyse
Entitäten aus einem benutzerdefinierten Dokument extrahieren, das nicht den Kriterien für benutzerdefinierte Prozesse entspricht.
Extrahieren Tabellen oder KVp aus einem strukturierten Formular in einem Dokument extrahieren Formularparser
Extrahiert Elemente wie Text, Tabellen und Listen in einem Dokument und gibt kontextsensitive Blöcke zurück. Layout-Parser
Entitäten aus einem benutzerdefinierten Dokument extrahieren, das die Kriterien für benutzerdefinierte Prozessoren erfüllt. Benutzerdefinierten Extraktor erstellen
Entitäten aus einem speziellen Dokumenttyp extrahieren Vortrainierter Prozessor (Weiter trainieren, um die Qualität zu verbessern)
Klassifizieren Dokumente klassifizieren Benutzerdefinierten Klassifikator erstellen
Dokumente teilen Benutzerdefinierten Splitter erstellen

Anhand dieses Diagramms lässt sich ermitteln, welcher Prozessor für jeden Anwendungsfall am besten geeignet ist.

docai-overview-2

Document AI-Prozessoren verwenden

So beginnen Sie mit der Verarbeitung von Dokumenten mit Document AI:

  1. Wählen Sie einen Prozessor aus, der für Ihren Anwendungsfall geeignet ist.

  2. Erstellen Sie einen Prozessor mit der Google Cloud Console oder der Document AI API.

    • Document AI erstellt einen Vorhersageendpunkt, an den Sie Ihre Dokumente senden können.

    • Eine ausführliche Anleitung finden Sie unter Prozessor erstellen.

  3. Trainieren Sie einen Prozessor mit Trainings- und Testdaten von Grund auf oder führen Sie ein Aufbautraining einer neuen (vortrainierten) Prozessorversion auf einer vorhandenen durch.

  4. Reichen Sie Ihre Dokumente zur Bearbeitung ein.