Übersicht: Document AI
In diesem Dokument werden die grundlegenden Konzepte der Verwendung von Document AI erläutert. Lesen Sie diese Seite, bevor Sie mit anderen Dokumenten oder Kurzanleitungen fortfahren.
Workflows zur Dokumentverarbeitung automatisieren
Unternehmen auf der ganzen Welt verlassen sich stark auf Dokumente, um Informationen zu speichern und zu übermitteln. Diese Informationen müssen oft digitalisiert werden, damit sie nützlich sind. Dies geschieht jedoch in der Regel durch zeitaufwendige manuelle Prozesse.
Beispiel:
- Bücher für E-Reader digitalisieren.
- Verarbeitung von Aufnahmeformularen in Arztpraxen
- Belege und Rechnungen werden zur Validierung von Spesenberichten geparst.
- Authentifizierung der Identität anhand von Ausweisen.
- Einkommen aus Steuerformularen für die Genehmigung von Krediten extrahieren
- Verträge mit wichtigen Geschäftsbedingungen verstehen
Bei jedem dieser Workflows wird der Rohtext aus Dokumenten abgerufen und dann bestimmter Text extrahiert, der den erforderlichen Daten (den Feldern oder Entitäten) entspricht. Jeder Dokumenttyp hat jedoch eine andere Struktur und ein anderes Layout und das Feldmuster variiert je nach Anwendungsfall.
Document AI-Komponenten
Document AI ist eine Plattform zur Dokumentverarbeitung und -erkennung, die unstrukturierte Daten aus Dokumenten in strukturierte Daten (spezifische Felder, die für eine Datenbank geeignet sind) umwandelt. So lassen sich die Daten leichter verstehen, analysieren und nutzen.
Document AI basiert auf Produkten in Vertex AI mit generativer KI. So können Sie skalierbare, End-to-End-basierte, cloudbasierte Anwendungen zur Dokumentenverarbeitung erstellen, ohne spezielles Fachwissen im Bereich maschinelles Lernen zu haben.
Mit Document AI haben Sie folgende Möglichkeiten:
- Dokumente mit OCR digitalisieren, um Text, Layout und verschiedene Add-ons wie die Bildqualitätserkennung (für bessere Lesbarkeit) und die automatische Bildentzerrung zu erhalten.
- Text- und Layoutinformationen aus Dokumentdateien extrahieren und Entitäten normalisieren.
- Schlüssel/Wert-Paare (KVP) in strukturierten Formularen und regulären Tabellen identifizieren Beispiel:
Name: Jill Smith
ist ein KVp. - Klassifizieren Sie Dokumenttypen, um nachgelagerte Prozesse wie Extraktion und Speicherung zu optimieren.
- Dokumente aufteilen und nach Typ klassifizieren. z. B. eine PDF-Datei mit mehreren echten Dokumenten).
- Datasets für die Feinabstimmung und Modellbewertung vorbereiten, indem Sie automatisches Labeling, Schemaverwaltung und Dataset-Verwaltungsfunktionen wie die Dokument- und Vorhersageüberprüfung verwenden.
- Sie können ihn in Produkte wie Cloud Storage, BigQuery und Vertex AI Search einbinden, um Dokumente und Metadaten zu speichern, zu suchen, zu organisieren, zu verwalten und zu analysieren.
Dieses Diagramm zeigt alle wichtigen Schritte der Dokumentverarbeitung, die von Document AI unterstützt werden, und wie sie miteinander verbunden werden können.
Prozessor
Ein Document AI-Prozessor liegt zwischen der Dokumentdatei und einem Modell für maschinelles Lernen, das Aktionen zur Dokumentverarbeitung und -erkennung ausführt. Sie können zum Klassifizieren, Aufteilen, Parsen oder Analysieren eines Dokuments verwendet werden.
Für jedes Google Cloud-Projekt müssen eigene Prozessorinstanzen erstellt werden.
Prozessoren fallen in eine der folgenden Kategorien:
- Digitalisieren: Optische Zeichenerkennung.
- Extrahieren: Benutzerdefinierter Extrahierer, Formularparser, Layoutparser und vorab trainierte Parser.
- Klassifizieren: Benutzerdefinierter Klassifikator und benutzerdefinierter Splitter.
Informationen zu allen verfügbaren Prozessortypen für Document AI finden Sie in der vollständigen Liste der Prozessoren und Details.
Welchen Prozessor sollte ich verwenden?
Im Folgenden finden Sie einige allgemeine Richtlinien, die Ihnen bei der Entscheidung für den richtigen Prozessortyp für eine bestimmte Anwendung helfen:
Kategorie | Anwendungsfall | Prozessortyp |
---|---|---|
Digitalisieren | Text und Layoutinformationen aus Dokumenten extrahieren | Enterprise Document OCR |
Die Qualität des gescannten Bildes (Lesbarkeit) eines Dokuments analysieren. | Enterprise Document OCR mit aktivierter Bildqualitätsanalyse | |
Entitäten aus einem benutzerdefinierten Dokument extrahieren, das nicht den Kriterien für benutzerdefinierte Prozesse entspricht. | ||
Extrahieren | Tabellen oder KVp aus einem strukturierten Formular in einem Dokument extrahieren | Formularparser |
Extrahiert Elemente wie Text, Tabellen und Listen in einem Dokument und gibt kontextsensitive Blöcke zurück. | Layout-Parser | |
Entitäten aus einem benutzerdefinierten Dokument extrahieren, das die Kriterien für benutzerdefinierte Prozessoren erfüllt. | Benutzerdefinierten Extraktor erstellen | |
Entitäten aus einem speziellen Dokumenttyp extrahieren | Vortrainierter Prozessor (Weiter trainieren, um die Qualität zu verbessern) | |
Klassifizieren | Dokumente klassifizieren | Benutzerdefinierten Klassifikator erstellen |
Dokumente teilen | Benutzerdefinierten Splitter erstellen |
Anhand dieses Diagramms lässt sich ermitteln, welcher Prozessor für jeden Anwendungsfall am besten geeignet ist.
Document AI-Prozessoren verwenden
So beginnen Sie mit der Verarbeitung von Dokumenten mit Document AI:
Wählen Sie einen Prozessor aus, der für Ihren Anwendungsfall geeignet ist.
- Vollständige Informationen zu den einzelnen Prozessoren finden Sie in der vollständigen Liste der Prozessoren und Details.
Erstellen Sie einen Prozessor mit der Google Cloud Console oder der Document AI API.
Document AI erstellt einen Vorhersageendpunkt, an den Sie Ihre Dokumente senden können.
Eine ausführliche Anleitung finden Sie unter Prozessor erstellen.
Trainieren Sie einen Prozessor mit Trainings- und Testdaten von Grund auf oder führen Sie ein Aufbautraining einer neuen (vortrainierten) Prozessorversion auf einer vorhandenen durch.
- Eine ausführliche Anleitung finden Sie unter Prozessor trainieren.
Reichen Sie Ihre Dokumente zur Bearbeitung ein.
Document AI verarbeitet die Dokumente und gibt ein oder mehrere
Document
-Objekte zurück, die die extrahierten, strukturierten Informationen enthalten.Eine ausführliche Anleitung findest du unter Verarbeitungsanfrage senden und Verarbeitungsantwort verarbeiten.