Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Prozessorliste
Auf dieser Seite finden Sie ausführliche Informationen zu allen von Document AI angebotenen Prozessoren. Sie können eine Liste aller Auftragsverarbeiter nach Lösungstyp aufrufen.
Erkennt und extrahiert Text in verschiedenen Arten von Dokumenten.
Mit diesem Prozessor können Sie Text, einschließlich handgeschriebenen Text, in Dokumenten in über 200 Sprachen erkennen und extrahieren. Der Prozessor verwendet außerdem maschinelles Lernen, um eine Qualitätsprüfung eines Dokuments anhand der Lesbarkeit des Inhalts durchzuführen.
Die Verwendung wird nicht empfohlen und die Funktion wird ab dem 30. April 2025 in den USA und der EU eingestellt.
pretrained-ocr-v1.1-2022-09-12
Stabile Version
Keine
Keine
Die Verwendung wird nicht empfohlen und die Funktion wird ab dem 30. April 2025 in den USA und der EU eingestellt.
pretrained-ocr-v1.2-2022-11-10
Stabile Version
Keine
Keine
Eingefrorene Modellversion von Version 1.0: Modelldateien, Konfigurationen und Binärdateien eines Versions-Snapshots, die bis zu 18 Monate lang in einem Container-Image eingefroren sind.
pretrained-ocr-v2.0-2023-06-02
Stabile Version
Keine
Keine
Produktionsreifes Modell, das speziell für Anwendungsfälle mit Dokumenten entwickelt wurde. Beinhaltet Zugriff auf alle OCR-Add-ons.
pretrained-ocr-v2.1-2024-08-07
Release-Kandidat
Keine
Keine
Die wichtigsten Verbesserungen in Version 2.1 sind: bessere Erkennung von gedrucktem Text, präzisere Kästchenerkennung und genauere Lesereihenfolge.
Unter Beispiel-Datasets finden Sie Beispiele für Datasets mit und ohne Labels, die Sie für das Training verwenden können.
Benutzerdefinierter Extrahierer
Beschreibung
Mit generativer KI oder benutzerdefinierten Modellen Felder aus Dokumenten extrahieren und Modelle optimieren, um Daten aus Ihren Dokumenten genau zu extrahieren.
Wenn Sie generative KI für die Extraktion verwenden, gilt Folgendes:
Es wird nur die englische Sprache offiziell unterstützt.
Die regionale Verfügbarkeit ist in den US-, EU-, northamerica-northeast1- und asia-southeast1-Regionen.
Unterstützte Sprachen
Vollständige Liste der Sprachen
Sprache
BCP-47-Tag
Script
Handschrift wird unterstützt
Afrikaans
af
Latn
Arabisch
ar
Arab
Aserbaidschanisch
az
Latn
Aserbaidschanisch (kyrillisch)
az-Cyrl
Cyrl
Belarussisch
be
Cyrl
Bulgarisch
bg
Cyrl
Bosnisch
bs
Latn
Katalanisch
ca
Latn
Cebuano
ceb
Latn
Tschechisch
cs
Latn
Walisisch
cy
Latn
Dänisch
da
Latn
Deutsch
de
Latn
Griechisch
el
Grek
Englisch
en
Latn
Esperanto
eo
Latn
Spanisch
es
Latn
Estnisch
et
Latn
Baskisch
eu
Latn
Persisch
fa
Arab
Finnisch
fi
Latn
Filipino
fil
Latn
Französisch
fr
Latn
Irisch
ga
Latn
Galizisch
gl
Latn
Hindi
hi
Deva
Kroatisch
hr
Latn
Haitianisch
ht
Latn
Ungarisch
hu
Latn
Indonesisch
id
Latn
Isländisch
is
Latn
Italienisch
it
Latn
Hebräisch
iw
Hebr
Japanisch
ja
Jpan
Javanisch
jv
Latn
Kasachisch
kk
Cyrl
Koreanisch
ko
Kore
Kirgisisch
ky
Cyrl
Latein
la
Latn
Litauisch
lt
Latn
Lettisch
lv
Latn
Mazedonisch
mk
Cyrl
Mongolisch
mn
Cyrl
Marathi
mr
Deva
Malaiisch
ms
Latn
Maltesisch
mt
Latn
Nepali
ne
Deva
Niederländisch
nl
Latn
Norwegisch
no
Latn
Polnisch
pl
Latn
Paschtu
ps
Arab
Portugiesisch (Portugal und Brasilien)
pt
Latn
Rumänisch
ro
Latn
Russisch
ru
Cyrl
Russisch (Petrinische Rechtschreibung)
ru-PETR1708
Cyrl
Sanskrit
sa
Deva
Slowakisch
sk
Latn
Slowenisch
sl
Latn
Albanisch
sq
Latn
Serbisch
sr
Cyrl
Schwedisch
sv
Latn
Swahili
sw
Latn
Tagalog
tl
Latn
Türkisch
tr
Latn
Ukrainisch
uk
Cyrl
Urdu
ur
Arab
Usbekisch
uz
Latn
Usbekisch (Kyrillisch)
uz-Cyrl
Cyrl
Vietnamesisch
vi
Latn
Jiddisch
yi
Hebr
Chinesisch (vereinfacht)
zh-Hans
Hani
Chinesisch (traditionell)
zh-Hant
Hani
Zulu
zu
Latn
Prozessorversionen
Versions-ID
Version
Zusätzliche Felder erkannt
Zusätzlich unterstützte Sprachen
Beschreibung
pretrained-foundation-model-v1.0-2023-08-22
Stabile Version
Keine
Keine
Produktionsreife Lösung, die auf Dokumenten-Anwendungsfälle spezialisiert ist und auf speziellen Vision- und Foundation-Modellen basiert.
pretrained-foundation-model-v1.1-2024-03-12
Release-Kandidat
Keine
Keine
Release-Kandidat mit dem LLM Gemini 1.0 Pro und neu entwickelten Technologien, einschließlich spezieller Sprach- und Visionsmodelle. Enthält auch erweiterte OCR-Funktionen wie die Kästchenerkennung.
pretrained-foundation-model-v1.2-2024-05-10
Stabile Version
Keine
Keine
Produktionsreife Version, die auf dem LLM Gemini 1.5 Pro und neu entwickelten Technologien basiert, einschließlich spezieller Sprach- und Visionsmodelle. Enthält auch erweiterte OCR-Funktionen wie die Kästchenerkennung. Empfohlen für Nutzer, die die größten unterstützten Tokenlimits verwenden oder mit neueren Modellen experimentieren möchten.
pretrained-foundation-model-v1.3-2024-08-31
Stabile Version
Keine
Keine
Produktionsreife Version mit dem Gemini 1.5 Flash-LLM. Enthält auch erweiterte OCR-Funktionen wie die Kästchenerkennung. Empfohlen für Nutzer, die die niedrigste Latenz wünschen.
Zusätzlich zum OCR-Text werden allgemeine Schlüssel/Wert-Paare (Entität und Kästchen), Tabellen und allgemeine Entitäten aus Dokumenten extrahiert.
Dieser Prozessor verwendet fortschrittliche Technologien für maschinelles Lernen, um Schlüssel/Wert-Paare, Kästchen und Tabellen aus Dokumenten in über 200 Sprachen zu extrahieren. Dieser Prozessor nutzt auch Deep-Learning-Modelle, um 11 generische Entitäten zu extrahieren, die in verschiedenen Dokumenttypen häufig vorkommen.
Extrahiert Dokumentinhaltselemente (Text, Tabellen und Listen) und erstellt kontextsensitive Blöcke.
Der Layout-Parser extrahiert Dokumentinhaltselemente wie Text, Tabellen und Listen und erstellt kontextsensitive Blöcke, die das Abrufen von Informationen in Anwendungen für generative KI und Discovery erleichtern.
Wenn eine Seite einer mehrseitigen Eingabedatei dem richtigen Dokumenttyp und einer der unterstützten Versionen entspricht, führt der Prozessor die Entitätsextraktion für das erste unterstützte Dokument durch. Wenn der Prozessor keine entsprechenden Dokumente in der Eingabedatei findet, gibt er eine Fehlermeldung zurück.
Unterstützte Sprachen
Sprache
BCP-47-Tag
Script
Handschrift wird unterstützt
Englisch
en
Latn
Prozessorversionen
Versions-ID
Version
Zusätzliche Felder erkannt
Zusätzlich unterstützte Sprachen
Beschreibung
pretrained-bankstatement-v1.0-2021-08-08
Stabile Version
Keine
Keine
pretrained-bankstatement-v1.1-2021-08-13
Stabile Version
Keine
Keine
pretrained-bankstatement-v2.0-2021-12-10
Stabile Version
Keine
Keine
pretrained-bankstatement-v3.0-2022-05-16
Stabile Version
Keine
Keine
Bei dieser Version wird davon ausgegangen, dass die Eingabedatei einen einzelnen Kontoauszug enthält. Im Gegensatz zur Standardversion wird bei dieser Version die Eingabedatei nicht auf Kontoauszüge geprüft und es wird kein Fehler zurückgegeben, wenn keine Kontoauszüge gefunden werden.
Wenn eine Seite einer mehrseitigen Eingabedatei dem richtigen Dokumenttyp und einer der unterstützten Versionen entspricht, führt der Prozessor die Entitätsextraktion für das erste unterstützte Dokument durch. Wenn der Prozessor keine entsprechenden Dokumente in der Eingabedatei findet, gibt er eine Fehlermeldung zurück.
Unterstützte Sprachen
Sprache
BCP-47-Tag
Script
Handschrift wird unterstützt
Englisch
en
Latn
Unterstützte Formulare/Versionen
2020 (Standard- und benutzerdefinierte Versionen)
2019 (Standard- und benutzerdefinierte Versionen)
2018 (Standard- und benutzerdefinierte Versionen)
Prozessorversionen
Versions-ID
Version
Zusätzliche Felder erkannt
Zusätzlich unterstützte Sprachen
Beschreibung
pretrained-w2-v1.0-2020-10-01
Stabile Version
Keine
Keine
pretrained-w2-v1.1-2022-01-27
Stabile Version
Keine
Keine
pretrained-w2-v1.2-2022-01-28
Stabile Version
Felder anzeigen
AllocatedTips
ControlNumber
DependentCareBenefits
EIN
EmployeeAddress
EmployeeName
EmployerNameAndAddress
EmployerStateIdNumber_Line1
FederalIncomeTaxWithheld
FormYear
LocalIncomeTax_Line1
LocalityName_Line1
LocalWagesTipsEtc_Line1
MedicareTaxWithheld
MedicareWagesAndTips
NonqualifiedPlans
SocialSecurityTaxWithheld
SocialSecurityTips
SocialSecurityWages
SSN
State_Line1
StateIncomeTax_Line1
StateWagesTipsEtc_Line1
WagesTipsOtherCompensation
Keine
Qualitätsverbesserungen und Unterstützung neuer Felder; enthält keinen Splitter.
Qualitätsverbesserungen und Unterstützung für Felder in Feld 12 sowie detaillierte Vorhersagen für EmployeeName, EmployeeAddress und EmployerNameAndAddress. Diese Felder sind nicht mehr Teil der Ausgabe und werden durch zusätzliche Felder ersetzt.
Die Funktion zur Online-Duplikaterkennung wird derzeit in US-Rechenzentren verarbeitet. Regionale und multiregionale Unterstützung für diese Funktion ist außerhalb der USA nicht verfügbar.
Dieser Prozessor wird von Algorithmen unterstützt, die häufiger aktualisiert werden, als neue Prozessorversionen veröffentlicht werden. Aus diesem Grund kann der Prozessor im Laufe der Zeit unterschiedliche Ergebnisse zurückgeben, auch wenn dieselbe Prozessorversion verwendet wird. Das System zur Online-Duplikaterkennung überwacht beispielsweise Bilder im Web. Das Verhalten des Systems kann sich dann schneller ändern, als es bei Prozessorversionen möglich ist.
Weitere Informationen finden Sie in den Hinweisen zu verantwortungsbewusster KI[†] und zur manuellen Überprüfung.[‡]
Unterstützte Sprachen
Sprache
BCP-47-Tag
Script
Handschrift wird unterstützt
Englisch
en
Latn
Unterstützte Formulare/Versionen
Unterstützung für US-amerikanische Reisepässe, Passkarten und Führerscheine
Wenn das mehrseitige Eingabedokument mehr als einen gültigen Lohnzettel enthält, extrahiert der Prozessor nur Entitäten aus dem ersten gültigen Lohnzettel. Wenn in der Eingabedatei keine Lohnabrechnungen gefunden werden, gibt der Prozessor eine Fehlermeldung zurück.
Unterstützte Sprachen
Sprache
BCP-47-Tag
Script
Handschrift wird unterstützt
Englisch
en
Latn
Prozessorversionen
Versions-ID
Version
Zusätzliche Felder erkannt
Zusätzlich unterstützte Sprachen
Beschreibung
pretrained-paystub-v1.0-2021-03-19
Stabile Version
Keine
Keine
pretrained-paystub-v1.1-2021-08-13
Stabile Version
Felder anzeigen
net_pay
net_pay_ytd
employee_account_number
Keine
Qualitätsverbesserung und Unterstützung neuer Felder
pretrained-paystub-v1.2-2021-12-10
Stabile Version
Keine
Keine
pretrained-paystub-v2.0-2022-05-17
Release-Kandidat
Felder anzeigen
deduction_item
deduction_item/deduction_type
deduction_item/deduction_this_period
deduction_item/deduction_ytd
direct_deposit_item
direct_deposit_item/direct_deposit
direct_deposit_item/employee_account_number
earning_item
earning_item/earning_type
earning_item/earning_rate
earning_item/earning_hours
earning_item/earning_this_period
earning_item/earning_ytd
page_number
tax_item
tax_item/tax_type
tax_item/tax_this_period
tax_item/tax_ytd
federal_additional_tax
federal_allowance
federal_marital_status
state_additional_tax
state_allowance
state_marital_status
Keine
Bei dieser Version wird davon ausgegangen, dass die Eingabedatei einen einzelnen Lohnzettel enthält. Im Gegensatz zur Standardversion wird bei dieser Version die Eingabedatei nicht auf Lohnabrechnungen geprüft und es wird kein Fehler zurückgegeben, wenn keine Lohnabrechnungen gefunden werden.
Qualitätsverbesserung, Unterstützung neuer Felder und neues Schema. „Bonus“, „Provisionen“, „Urlaub“, „Überstunden“, „Reguläres Gehalt“ und „Urlaub“ sind jetzt Teil von „earning_item/earning_this_period“ und die entsprechenden Werte für das laufende Jahr sind unter „earning_item/earning_ytd“ zu finden. „Direktüberweisung“ und „Mitarbeiterkontonummer“ sind jetzt unter „direct_deposit_item“ verschachtelt.
Die maximale Anzahl von Seiten für asynchrone Abläufe beträgt 10.
Extrahiert Text und Werte aus Rechnungen, z. B. Rechnungsnummer, Lieferantenname, Rechnungsbetrag, Steuerbetrag, Rechnungsdatum, Fälligkeitsdatum.
Der Rechnungsparser extrahiert sowohl Kopf- als auch Positionenfelder, z. B. Rechnungsnummer, Lieferantenname, Rechnungsbetrag, Steuerbetrag, Rechnungsdatum, Fälligkeitsdatum und Positionenbeträge.
[*] Dieser Prozessor ist nur für Kunden mit eingeschränktem Zugriff verfügbar.
Wenn Sie den Zugriff auf diese API anfordern möchten, füllen Sie das Anfrageformular für den eingeschränkten Zugriff auf Document AI aus und reichen Sie es ein.
Im Formular müssen Sie Informationen über sich, Ihr Unternehmen und Ihren Anwendungsfall angeben.
Für den Zugriff ist eine Google Cloud-Projekt-ID erforderlich.
Halten Sie sich an diese Anleitung, um ein neues Google Cloud-Projekt zu erstellen oder die Projekt-ID eines vorhandenen Projekts zu ermitteln.
Nachdem Sie das Formular gesendet haben, prüft das Document AI-Team Ihre Anfrage, um sicherzustellen, dass Sie die Kriterien für den Zugriff erfüllen.
Bei Genehmigung erhalten Sie eine E-Mail mit einer Anleitung dazu, wie Sie auf diese Funktion zugreifen und sie verwenden können.
[†]
Bei der Überprüfung von Ausweisen werden Informationen aus Ausweisdokumenten extrahiert und ausgewertet, um festzustellen, ob das Eingabebild einen authentischen Ausweis darstellt.
Bei Google Cloudhelfen wir Kunden bei der sicheren Entwicklung und Implementierung von KI-Lösungen. Die Identitätsbestätigung wurde gemäß den KI-Prinzipien von Google entwickelt.
Auf der Grundlage der KI-Grundsätze von Google und des aktuellen Produktdesigns empfehlen wir dringend, die potenziellen Vorteile und Risiken der Bestätigung per Ausweis für die folgenden Zwecke sorgfältig zu prüfen:
Entscheidungen ohne menschliches Zutun bei Vorhersagen, die sich auf Menschenrechte auswirken können.
In sensiblen Bereichen, einschließlich, aber nicht beschränkt auf Beschäftigung, Zugang zu öffentlichen Dienstleistungen, Gesundheitswesen und sicherheitskritische Kontexte.
[‡] Verwenden Sie die Identitätsbestätigung immer als Teil Ihres umfassenderen Prozesses und Workflows zur Identitätserkennung.
Es ist wichtig, dass Sie in Ihrem Workflow einen menschlichen Prüfer haben, der prüft, ob die vorhergesagten Signale korrekt sind. Der Prozessor für die Identitätsbestätigung soll die manuelle Überprüfung von Ausweisen in einem Workflow nicht ersetzen, sondern die Prüfer bei der Validierung von Ausweisen unterstützen. Der Identitätsbestätigungs-Prozessor sollte nicht als automatisiertes Entscheidungstool verwendet werden, um zu bestimmen, ob ein Ausweis gültig ist. Mit manuellen Überprüfungen können Kunden die Genauigkeit der Dokumentenverarbeitung verbessern und Unternehmen dabei helfen, Vorhersagen mithilfe speziell entwickelter Tools zu bewerten.
Prüfen Sie die rechtlichen Vorgaben in der Region, in der Sie diese Technologie implementieren, und informieren Sie sich über bestehende Branchenleitfäden, um mehr über Richtlinien und häufig auftretende Probleme im Hinblick auf Fairness zu erfahren. Hier finden Sie Informationen zu Fairness im Bereich maschinelles Lernen, einschließlich Möglichkeiten zur Minimierung von Verzerrungen in Trainingsdatensätzen, zur Bewertung Ihrer benutzerdefinierten Modelle auf Leistungsunterschiede und zu anderen Aspekten bei der Verwendung Ihres benutzerdefinierten Modells.
Wir empfehlen Kunden, bei der Implementierung der Identitätsbestätigung die Fairness, Interpretierbarkeit sowie Best Practices für Datenschutz und Sicherheit zu berücksichtigen. Weitere Informationen zur Implementierung von verantwortungsbewusster KI finden Sie in den Empfehlungen von Google für die verantwortungsbewusste Anwendung von KI.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-01-29 (UTC)."],[],[]]