Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
In diesem Dokument werden die grundlegenden Konzepte der Verwendung von Document AI erläutert.
Lesen Sie diese Seite, bevor Sie mit anderen Dokumenten oder Kurzanleitungen fortfahren.
Workflows zur Dokumentverarbeitung automatisieren
Unternehmen auf der ganzen Welt sind stark auf Dokumente angewiesen, um Informationen zu speichern und zu vermitteln.
Diese Informationen müssen oft digitalisiert werden, damit sie nützlich sind. Dies geschieht jedoch in der Regel durch zeitaufwendige, manuelle Prozesse.
Beispiel:
Bücher für E-Reader digitalisieren
Verarbeitung von medizinischen Aufnahmeformularen in Arztpraxen.
Belege und Rechnungen für die Validierung von Spesenabrechnungen parsen.
Identität anhand von Ausweisen authentifizieren
Einkommensinformationen aus Steuerformularen extrahieren, um Kredite zu genehmigen.
Verträge für wichtige Geschäftsvereinbarungen
Bei jedem dieser Workflows wird der Roh-Text aus Dokumenten abgerufen und dann der Text extrahiert, der den benötigten Daten (den Feldern oder Einheiten) entspricht.
Jeder Dokumenttyp hat jedoch eine andere Struktur und ein anderes Layout. Das Muster der Felder variiert je nach Anwendungsfall.
Document AI-Komponenten
Document AI ist eine Plattform zur Verarbeitung und zum Verständnis von Dokumenten, die unstrukturierte Daten aus Dokumenten in strukturierte Daten (bestimmte Felder, geeignet für eine Datenbank) umwandelt, sodass sie leichter verständlich, analysierbar und aufnehmbar sind.
Document AI basiert auf Produkten in Vertex AI mit generativer KI, um Ihnen bei der Erstellung skalierbarer, cloudbasierter End-to-End-Anwendungen zur Dokumentenverarbeitung ohne spezielles Fachwissen im Bereich maschinelles Lernen zu helfen.
Mit Document AI haben Sie folgende Möglichkeiten:
Dokumente digitalisieren: Mit OCR können Sie Text, Layout und verschiedene Add-ons wie die Erkennung der Bildqualität (für die Lesbarkeit) und die automatische Entzerrung erhalten.
Extrahieren Sie Text- und Layoutinformationen aus Dokumentdateien und normalisieren Sie Entitäten.
Schlüssel/Wert-Paare in strukturierten Formularen und regulären Tabellen identifizieren. Beispiel: Name: Jill Smith ist ein KVP.
Klassifizieren Sie Dokumenttypen, um nachgelagerte Prozesse wie Extraktion und Speicherung zu steuern.
Dokumente nach Typ aufteilen und klassifizieren. Zum Beispiel eine PDF-Datei mit mehreren echten Dokumenten.
Datasets für die Feinabstimmung und Modellevaluierungen vorbereiten – mit Funktionen wie automatische Kennzeichnung, Schemamanagement und Dataset-Management, z. B. Überprüfung von Dokumenten und Vorhersagen.
In Produkte wie Cloud Storage, BigQuery und Vertex AI Search einbinden, um Dokumente und Metadaten zu speichern, zu durchsuchen, zu organisieren, zu verwalten und zu analysieren.
Dieses Diagramm veranschaulicht alle wichtigen Schritte der Dokumentverarbeitung, die von Document AI unterstützt werden, und wie sie miteinander verbunden werden können.
Prozessor
Ein Document AI-Prozessor befindet sich zwischen der Dokumentdatei und einem Modell für maschinelles Lernen, das Aktionen zur Dokumentverarbeitung und -analyse ausführt.
Sie können zum Klassifizieren, Aufteilen, Parsen oder Analysieren eines Dokuments verwendet werden.
Für jedes Google Cloud Projekt müssen eigene Prozessorinstanzen erstellt werden.
Prozessoren lassen sich einer der folgenden Kategorien zuordnen:
Digitalisieren: OCR.
Extrahieren: Benutzerdefinierter Extrahierer, Formularparser, Layoutparser und vortrainierte Parser.
Klassifizieren: Benutzerdefinierter Klassifikator und benutzerdefinierter Splitter.
Im Folgenden finden Sie einige allgemeine Richtlinien, die Ihnen bei der Entscheidung helfen können, welcher Prozessortyp für eine bestimmte Anwendung verwendet werden soll:
Kategorie
Anwendungsfall
Prozessortyp
Digitalisieren
Text- und Layoutinformationen aus Dokumenten extrahieren.
Prozessor trainieren: Sie können einen Prozessor mit Trainings- und Testdaten von Grund auf trainieren oder eine neue (vortrainierte) Prozessorversion auf Basis einer vorhandenen weiter trainieren.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-09-04 (UTC)."],[[["\u003cp\u003eDocument AI is a platform that transforms unstructured data from documents into structured data, making it easier to understand, analyze, and use.\u003c/p\u003e\n"],["\u003cp\u003eDocument AI enables the automation of document processing workflows, such as digitizing documents, extracting text and entities, classifying document types, and preparing datasets for model training.\u003c/p\u003e\n"],["\u003cp\u003eDocument AI uses processors that fall into the categories of digitize, extract, or classify to perform specific document processing and understanding actions.\u003c/p\u003e\n"],["\u003cp\u003eTo use Document AI, you must choose a suitable processor, create the processor, optionally train it, and then send documents to the processor for processing.\u003c/p\u003e\n"],["\u003cp\u003eDocument AI can integrate with products like Cloud Storage, BigQuery, and Vertex AI Search for storing, searching, and analyzing documents.\u003c/p\u003e\n"]]],[],null,["This document is a guide to the fundamental concepts of using Document AI.\nYou should read this page before proceeding to any other documentation or quickstarts.\n\nAutomate document processing workflows\n\nBusinesses all over the world rely heavily on documents to store and convey information.\nThis information often needs to be digitized for it to become useful. However,\nthis is usually accomplished through time-intensive, manual processes.\n\nFor example:\n\n- Digitizing books for e-readers.\n- Processing medical intake forms at doctor's offices.\n- Parsing receipts and invoices for expense report validation.\n- Authenticating identity based on ID cards.\n- Extracting income information from tax forms for approving loans.\n- Understanding contracts for key business agreement terms.\n\nEach of these workflows involve getting the raw text from documents, then\nextracting specific text from that which corresponds to the data needed (the fields or entities).\nHowever, each document type has a different structure and layout, and the pattern of fields\nvary depending on the specific use case.\n\nDocument AI components\n\nDocument AI is a [document processing and understanding](https://en.wikipedia.org/wiki/Document_processing)\nplatform that takes unstructured data from documents and transforms it into\nstructured data (specific fields, suitable for a database), making it easier to understand, analyze, and consume.\n\nDocument AI is built on top of products within Vertex AI with generative AI to help you\ncreate scalable, end-to-end, cloud-based document processing applications without specialized machine learning expertise.\n\nUsing Document AI, you can:\n\n- **Digitize documents** using OCR to get text, layout, and various add ons such as image quality detection (for readability) and deskewing (fully automatic).\n- **Extract** text and layout information, from document files and normalize entities.\n- **Identify key-value pairs (kvp)** in structured forms and regular tables. For example: `Name: Jill Smith` is a kvp.\n- **Classify** document types to drive downstream processes such as extraction and storage.\n- **Split** and classify documents by type. For example, a PDF file with multiple real documents.\n- **Prepare datasets** to be used in fine-tuning and model evaluations using auto-labeling, schema management, and dataset management features such as document and prediction review.\n- **Integrate it with products** like Cloud Storage, BigQuery, and Vertex AI Search to help you store, search, organize, govern, and analyze documents and metadata.\n\nThis diagram illustrates all of the key document processing steps that are\nsupported by Document AI and how they can connect to each other.\n\nProcessor\n\nA Document AI processor lies between the document file and a machine\nlearning model that performs document processing and understanding actions.\nThey can be used to classify, split, parse, or analyze a document.\n\nEach Google Cloud project needs to create its own processor instances.\n\nProcessors fit into one of the following categories:\n\n- **Digitize**: OCR.\n- **Extract**: Custom extractor, Form Parser, layout parser, and pretrained parsers.\n- **Classify**: Custom classifier and custom splitter.\n\nRefer to the [Full processor and detail list](/document-ai/docs/processors-list) for information about all\navailable processor types for Document AI.\n\nWhich processor should I use?\n\nTo decide what processor type to use for a specific application, here are some general guidelines:\n| **Note:** All processors can extract text and layout information.\n\n| **Category** | **Use case** | **Processor type** |\n|--------------|------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| Digitize | Extract text and layout information from documents. | [Enterprise Document OCR](/document-ai/docs/processors-list#processor_doc-ocr) |\n| Digitize | Analyze the scanned image quality (readability) of a document. | [Enterprise Document OCR](/document-ai/docs/processors-list#processor_doc-ocr) with [image-quality analysis](/document-ai/docs/processors-list#processor_doc-quality-processor) enabled |\n| Digitize | Extract entities from a custom document that does not meet the [custom processor criteria](/document-ai/quotas). | |\n| Extract | Extract tables or kvp from a structured form in a document. | [Form Parser](/document-ai/docs/processors-list#processor_form-parser) |\n| Extract | Extract elements like text, tables, and lists in a document and return context aware chunks. | [Layout Parser](/document-ai/docs/layout-parse-chunk) |\n| Extract | Extract entities from a custom document that meets the [custom processor criteria](/document-ai/quotas). | [Create a custom extractor](/document-ai/docs/workbench/build-custom-processor) |\n| Extract | Extract entities from a specialized document type. | A [pretrained processor](/document-ai/docs/processors-list#specialized_processors) ([Up-train](/document-ai/docs/uptrain-pretrained-processor) to improve quality.) |\n| Classify | Classify documents. | [Create a Custom Classifier](/document-ai/docs/workbench/build-custom-classification-processor) |\n| Classify | Split documents. | [Create a Custom Splitter](/document-ai/docs/workbench/build-custom-splitter-processor) |\n\nThis diagram helps determine which processor works best for each use case.\n\nUse Document AI processors\n\nHere are the major steps to use Document AI to start processing documents:\n\n1. **Choose a processor** that is suitable for your use case.\n\n - For complete information on each processor, see the [Full processor and detail list](/document-ai/docs/processors-list).\n2. **Create a processor** using the Google Cloud console or the Document AI API.\n\n - Document AI creates a **prediction endpoint** where you can send your documents.\n\n - For detailed instructions, see [Creating a processor](/document-ai/docs/create-processor).\n\n3. **Train a processor** with train and test data from scratch, or uptrain a new (pretrained) processor version on top of an existing one.\n\n - For detailed instructions, see [Train processor](/document-ai/docs/workbench/train-processor).\n4. **Send your documents** for processing.\n\n - Document AI processes the documents and returns one or more [`Document`](/document-ai/docs/reference/rest/v1/Document) objects, which contain the extracted, structured information.\n\n - For detailed instructions, see [Sending a processing request](/document-ai/docs/send-request) and [Handle the processing response](/document-ai/docs/handle-response)."]]