Extrahieren Sie Text und Daten aus Bildern und Dokumenten, wandeln Sie unstrukturierte Inhalte in strukturierte Daten in ein für Unternehmen geeignetes Format um und gewinnen Sie wertvolle Einsichten.
Binden Sie OCR-Funktionen über APIs in Ihre Anwendungen ein.
Neukunden erhalten bei der Registrierung ein Startguthaben im Wert von 300$, um sich für OCR-Lösungen für das Zusammenfassen von Dokumenten zu bewerben.
Überblick
Google Cloud bietet zwei Arten von OCR: OCR für Dokumente und OCR für Bilder und Videos.
Document AI ist eine für die Dokumentverarbeitung optimierte Plattform zum Verstehen von Dokumenten. Sein Custom Extractor basiert auf GenAI, die sowohl generische als auch fachspezifische Dokumente mit höherer Genauigkeit und schneller verarbeitet, ohne einen speziellen Prozessor auswählen zu müssen.
Cloud Vision wird häufig verwendet, um Text, Handschrift und eine Vielzahl von Objekten aus Bildern und Videos zu erkennen.
Google Cloud unterstützt OCR mit branchenführender KI. Dies geht über die herkömmliche Texterkennung hinaus, indem Daten analysiert, organisiert und angereichert werden, um letztendlich geschäftsfähige Erkenntnisse zu gewinnen.
Sie haben die Flexibilität, die OCR-Tools als einheitliche Suite für optimierte Effizienz zu verwenden (z. B. Document AI) oder einfach die entsprechenden APIs, die direkt in der Google Cloud Console verfügbar sind, um OCR-Funktionen in Ihre Anwendungen einzubinden.
Alle oben genannten OCR-Lösungen bieten Zugriff auf vortrainierte ML-Modelle, die Sie direkt über eine API bereitstellen können. Durch ein Aufbautraining können Sie die Genauigkeit für Ihre spezifischen Anforderungen verbessern.
Sie können auch eigene benutzerdefinierte Modelle mit AutoML trainieren. Dazu sind keine Kenntnisse im Bereich maschinelles Lernen erforderlich.
Informationen zum Erstellen benutzerdefinierter ML-Modelle finden Sie in der AutoML-Dokumentation.
Wenn Sie ein Dokument analysieren oder eine automatisierte Pipeline zur Dokumentverarbeitung erstellen möchten, verwenden SieDocument AI – Sie können damit den gesamten Workflow an einem Ort verwalten – vom Verständnis der Dokumente bis hin zum Durchsuchen, Speichern, Steuern und Verwalten der Dokumente neben extrahierten Daten.
Wenn Sie Bilder analysieren und verarbeiten möchten, sollten Sie Cloud Vision zusammen mit anderen Google Cloud-Produkten verwenden. Weitere Informationen und Kurzanleitungen finden Sie im Abschnitt „Gängige Einsatzmöglichkeiten“.
Beide APIs können kostenlos mit einem Google Cloud-Konto getestet werden.
OCR-Angebote vergleichen
OCR-Angebot | Optimal für | Wichtige Features | |
---|---|---|---|
| Allgemeine Anwendungsfälle für die Textextraktion, die eine niedrige Latenz und hohe Kapazität erfordern. | Vordefinierte Funktionen wie Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, OCR, SafeSearch | |
Enterprise Document OCR | Text aus Dokumenten digitalisieren (PDFs, gescannte Dokumente als Bilder oder Microsoft DocX-Dateien) | Extrahiert Text in über 200 Sprachen und in 50 handschriftlichen Sprachen. Add-ons zur Erkennung von mathematischen Formeln, Stilen usw. | |
| Document AI Workbench | Dokumente mit generativer KI (Basismodelle) extrahieren, klassifizieren und aufteilen | Custom Extractor: Verwendet Basismodelle, um schnell Parser ohne umfangreiches Datenlabeling oder Training zu erstellen. Benutzerdefinierter Klassifikator und Dokument-Splitter für eine effiziente Verarbeitung. |
| Vortrainierte Modelle | Extraktion von Text und Feldern aus domainspezifischen Dokumenten | Extraktion und Digitalisierung von Texten für eine Vielzahl von Beschaffungs-, Darlehens-, Identitäts- und Vertragsdokumenten. |
Allgemeine Anwendungsfälle für die Textextraktion, die eine niedrige Latenz und hohe Kapazität erfordern.
Vordefinierte Funktionen wie Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, OCR, SafeSearch
Enterprise Document OCR
Text aus Dokumenten digitalisieren (PDFs, gescannte Dokumente als Bilder oder Microsoft DocX-Dateien)
Extrahiert Text in über 200 Sprachen und in 50 handschriftlichen Sprachen.
Add-ons zur Erkennung von mathematischen Formeln, Stilen usw.
Document AI Workbench
Dokumente mit generativer KI (Basismodelle) extrahieren, klassifizieren und aufteilen
Custom Extractor: Verwendet Basismodelle, um schnell Parser ohne umfangreiches Datenlabeling oder Training zu erstellen.
Benutzerdefinierter Klassifikator und Dokument-Splitter für eine effiziente Verarbeitung.
Vortrainierte Modelle
Extraktion von Text und Feldern aus domainspezifischen Dokumenten
Extraktion und Digitalisierung von Texten für eine Vielzahl von Beschaffungs-, Darlehens-, Identitäts- und Vertragsdokumenten.
Funktionsweise
Verwenden Sie Document AI, um Dokumente zu verstehen und zu verarbeiten.
Für Bilder empfehlen wir Cloud Vision.
Beide bieten Zugriff auf vortrainierte ML-Modelle, die Sie unverändert über APIs oder für ein Aufbautraining bereitstellen können. Außerdem können Sie mit AutoML Ihre eigenen benutzerdefinierten Modelle trainieren – ganz ohne ML-Fachwissen.
Die ersten 1.000 Einheiten pro Monat sind bei Verwendung von Cloud Vision oder Document OCR kostenlos. Probieren Sie es mit einem einfachen API-Aufruf aus.
Demo
Testen Sie die Document AI API mit einem einfachen Drag-and-drop.
Gängige Einsatzmöglichkeiten
Document AI Custom Extractor basiert auf einem grundlegenden Modell und extrahiert generische und fachspezifische Texte und Daten schneller und mit höherer Genauigkeit. Mit nur 5–10 Dokumenten können Sie ganz einfach Anpassungen vornehmen – für noch bessere Leistung.
Wenn Sie ein eigenes Modell trainieren möchten, können Sie den Datasets mit dem Basismodell automatische Labels hinzufügen, um die Produktion zu beschleunigen.
Sie können auch vortrainierte spezialisierte Prozessoren verwenden. Hier finden Sie eine vollständige Liste der Prozessoren.
Document AI Custom Extractor basiert auf einem grundlegenden Modell und extrahiert generische und fachspezifische Texte und Daten schneller und mit höherer Genauigkeit. Mit nur 5–10 Dokumenten können Sie ganz einfach Anpassungen vornehmen – für noch bessere Leistung.
Wenn Sie ein eigenes Modell trainieren möchten, können Sie den Datasets mit dem Basismodell automatische Labels hinzufügen, um die Produktion zu beschleunigen.
Sie können auch vortrainierte spezialisierte Prozessoren verwenden. Hier finden Sie eine vollständige Liste der Prozessoren.
Document AI basiert auf GenAI und bietet eine sehr präzise Extraktion von Daten aus Dokumenten unterschiedlicher Layouts und Qualität. Sie können es mit Cloud Storage verbinden, um für Ihre unstrukturierten Dokumente unternehmensgerechte Compliance zu gewährleisten. Mit BigQuery können Sie die extrahierten Daten beliebig im Batch verarbeiten und analysieren. Mit Looker können Sie ganz einfach Visualisierungen basierend auf Ihren BigQuery-Tabellen erstellen. Mit Vertex AI Search können Sie Ihre Dokumente in Cloud Storage konversationell oder traditionell abfragen und durchsuchen.
Die Einrichtung der gesamten Pipeline dauert 60–90 Minuten. Für den Document AI-Teil benötigen Sie 10 Minuten.
Document AI basiert auf GenAI und bietet eine sehr präzise Extraktion von Daten aus Dokumenten unterschiedlicher Layouts und Qualität. Sie können es mit Cloud Storage verbinden, um für Ihre unstrukturierten Dokumente unternehmensgerechte Compliance zu gewährleisten. Mit BigQuery können Sie die extrahierten Daten beliebig im Batch verarbeiten und analysieren. Mit Looker können Sie ganz einfach Visualisierungen basierend auf Ihren BigQuery-Tabellen erstellen. Mit Vertex AI Search können Sie Ihre Dokumente in Cloud Storage konversationell oder traditionell abfragen und durchsuchen.
Die Einrichtung der gesamten Pipeline dauert 60–90 Minuten. Für den Document AI-Teil benötigen Sie 10 Minuten.
Das Taggen von Bildern wird auch als Bildbeschriftung bezeichnet.
Die Cloud Vision API kann allgemeine Objekte, Sehenswürdigkeiten, Orte, Logos, Aktivitäten, Tierarten, Produkte und mehr in einem Bild identifizieren und mit Labels versehen. Sobald die Bilder mit den erkannten Labels getaggt sind, sind die Bildersuche, die Verarbeitung und die Verwaltung automatisiert und einfacher.
Wenn Sie gezielte benutzerdefinierte Labels benötigen, verwenden Sie Cloud AutoML, um ein benutzerdefiniertes ML-Modell zu trainieren.
Um Google OCR-Technologien lokal zu verwenden, nutzen Sie OCR On-Prem, verfügbar im Cloud Marketplace.
Für eine einfache Pipeline zur Bildverarbeitung, die Labels wie rechts dargestellt erkennt, würden Ihre monatlichen Kosten 27,36 USD betragen.
Im Preisrechner können Sie die Annahmen zur Nutzung prüfen, die zu dieser Zahl geführt haben.
Die ersten 1.000 Einheiten pro Monat sind kostenlos.
Das Taggen von Bildern wird auch als Bildbeschriftung bezeichnet.
Die Cloud Vision API kann allgemeine Objekte, Sehenswürdigkeiten, Orte, Logos, Aktivitäten, Tierarten, Produkte und mehr in einem Bild identifizieren und mit Labels versehen. Sobald die Bilder mit den erkannten Labels getaggt sind, sind die Bildersuche, die Verarbeitung und die Verwaltung automatisiert und einfacher.
Wenn Sie gezielte benutzerdefinierte Labels benötigen, verwenden Sie Cloud AutoML, um ein benutzerdefiniertes ML-Modell zu trainieren.
Um Google OCR-Technologien lokal zu verwenden, nutzen Sie OCR On-Prem, verfügbar im Cloud Marketplace.
Für eine einfache Pipeline zur Bildverarbeitung, die Labels wie rechts dargestellt erkennt, würden Ihre monatlichen Kosten 27,36 USD betragen.
Im Preisrechner können Sie die Annahmen zur Nutzung prüfen, die zu dieser Zahl geführt haben.
Die ersten 1.000 Einheiten pro Monat sind kostenlos.
Mit der Cloud Vision API können Sie Text und Handschrift aus Bildern in verschiedenen Sprachen erkennen und extrahieren. Außerdem bietet sie eine multiregionale Unterstützung , mit der Sie Datenspeicher auf Kontinentebene und OCR-Verarbeitung angeben können.
Sie können sofort Ergebnisse für eine kleine Anzahl von Bildern (bis zu 16 pro Anfrage) erhalten oder asynchron eine Batchverarbeitung für eine größere Anzahl von Bildern (bis zu 2.000 pro Anfrage) für ein späteres Resultat durchführen.
Zum Ausführen einer einfachen Verarbeitungspipeline, die Text aus Bildern extrahiert, wie in der rechten Abbildung gezeigt, betragen Ihre monatlichen Kosten 27,36 USD.
Im Preisrechner können Sie die Annahmen zur Nutzung prüfen, die zu dieser Zahl geführt haben.
Die ersten 1.000 Einheiten pro Monat sind kostenlos.
Mit der Cloud Vision API können Sie Text und Handschrift aus Bildern in verschiedenen Sprachen erkennen und extrahieren. Außerdem bietet sie eine multiregionale Unterstützung , mit der Sie Datenspeicher auf Kontinentebene und OCR-Verarbeitung angeben können.
Sie können sofort Ergebnisse für eine kleine Anzahl von Bildern (bis zu 16 pro Anfrage) erhalten oder asynchron eine Batchverarbeitung für eine größere Anzahl von Bildern (bis zu 2.000 pro Anfrage) für ein späteres Resultat durchführen.
Zum Ausführen einer einfachen Verarbeitungspipeline, die Text aus Bildern extrahiert, wie in der rechten Abbildung gezeigt, betragen Ihre monatlichen Kosten 27,36 USD.
Im Preisrechner können Sie die Annahmen zur Nutzung prüfen, die zu dieser Zahl geführt haben.
Die ersten 1.000 Einheiten pro Monat sind kostenlos.
Preise
Wie viel kostet mein Anwendungsfall? | Monatliche Kosten für einen Anwendungsfall mit den von Ihnen benötigten Produkten und wichtigen Annahmen zur Nutzung verstehen. | ||
---|---|---|---|
Anwendungsfall | Verwendete Produkte | Annahmen zur Nutzung | Geschätzte monatliche Kosten (USD) |
Tagging von Bildern, Verarbeitung und Suche | Cloud Vision Cloud Storage Pub/Sub Cloud Run | 1. 15.000 API-Aufrufe für die Cloud Vision-Labelerkennung pro Monat 2. 100 GiB Speicher pro Monat 3. Eine CPU mit 1,25 GiB 4. Täglich 4 GiB über Pub/Sub veröffentlicht | 27,36 $ |
Text und Informationen aus Dokumenten extrahieren | Document AI Cloud Storage BigQuery Cloud Functions | 1. 1.000 Formularparser-API-Aufrufe für Document AI pro Monat 2. 100 GiB Speicher pro Monat 3. 1 TiB monatliche Abfragen 4. RAM: 512 MB, CPU: 800 MHz | 71,87 $ |
Text aus Bildern extrahieren | Cloud Vision Cloud Storage Pub/Sub Cloud Run | 1. 15.000 API-Aufrufe für die Cloud Vision-OCR pro Monat 2. 100 GiB Speicher pro Monat 3. Eine CPU mit 1,25 GiB 4. Täglich 4 GiB über Pub/Sub veröffentlicht | 27,36 $ |
Hier finden Sie die vollständigen Preise pro Einheit für Document AI, Vision API und AutoML.
Wie viel kostet mein Anwendungsfall?
Monatliche Kosten für einen Anwendungsfall mit den von Ihnen benötigten Produkten und wichtigen Annahmen zur Nutzung verstehen.
Cloud Vision
Cloud Storage
Pub/Sub
Cloud Run
1. 15.000 API-Aufrufe für die Cloud Vision-Labelerkennung pro Monat
2. 100 GiB Speicher pro Monat
3. Eine CPU mit 1,25 GiB
4. Täglich 4 GiB über Pub/Sub veröffentlicht
27,36 $
Document AI
Cloud Storage
BigQuery
Cloud Functions
1. 1.000 Formularparser-API-Aufrufe für Document AI pro Monat
2. 100 GiB Speicher pro Monat
3. 1 TiB monatliche Abfragen
4. RAM: 512 MB, CPU: 800 MHz
71,87 $
Cloud Vision
Cloud Storage
Pub/Sub
Cloud Run
1. 15.000 API-Aufrufe für die Cloud Vision-OCR pro Monat
2. 100 GiB Speicher pro Monat
3. Eine CPU mit 1,25 GiB
4. Täglich 4 GiB über Pub/Sub veröffentlicht
27,36 $
Hier finden Sie die vollständigen Preise pro Einheit für Document AI, Vision API und AutoML.