Die optische Zeichenerkennung (Optical Character Recognition, OCR) ist eine der drei vortrainierten Vertex AI-APIs auf der GDC-Appliance (Google Distributed Cloud) mit Air Gap. Der OCR-Dienst erkennt Text in verschiedenen Dateitypen, z. B. in Bildern, Dokumentdateien und handgeschriebenem Text.
OCR bietet die folgenden Methoden, die in der GDC-Air-Gap-Appliance zur Texterkennung verfügbar sind:
Methode | Beschreibung |
---|---|
BatchAnnotateImages |
Text aus einer Gruppe von JPEG- oder PNG-Bildern erkennen, die in einer Inline-Anfrage bereitgestellt werden. |
BatchAnnotateFiles |
Text aus einem Batch von PDF- oder TIFF-Dateien erkennen, die in einer Inline-Anfrage bereitgestellt werden. |
Weitere Informationen zu den von der Texterkennung unterstützten Sprachen
Funktionen zur optischen Zeichenerkennung
Mit der OCR API können Sie Text in Bildern erkennen und extrahieren. Die folgenden beiden Anmerkungsfunktionen unterstützen die optische Zeichenerkennung:
TEXT_DETECTION
erkennt und extrahiert Text aus beliebigen Bildern. Nehmen wir als Beispiel ein Foto von einem Straßenschild oder Verkehrszeichen. Der OCR-Dienst gibt eine JSON-Datei mit dem extrahierten String, einzelnen Wörtern und deren Begrenzungsrahmen zurück.Abbildung 1. Foto eines Straßenschilds, auf dem die OCR API Wörter und deren Begrenzungsrahmen erkennt.
DOCUMENT_TEXT_DETECTION
extrahiert zusätzlich Text aus einem Bild, wobei die Antwort für Fließtext und Dokumente optimiert ist. Ein gescanntes Bild mit getipptem Text kann beispielsweise mehrere Absätze und Überschriften enthalten. Der OCR-Dienst gibt eine JSON-Datei mit Informationen zu Seite, Block, Absatz, Wort und Worttrennung zurück.Abbildung 2. Gescannte Abbildung von getipptem Text, in der die OCR API Informationen wie Wörter, Seiten und Absätze erkennt.
Handschriftlicher Text
Abbildung 3 zeigt ein Bild mit handschriftlichem Text. Die OCR API erkennt und extrahiert Text aus diesen Bildern. Eine Liste der Handschrift-Scripts, die die Handschrifterkennung unterstützen, finden Sie unter Handschrift-Scripts.
Abbildung 3. Bild mit Handschrift, in dem die OCR API Text erkennt.
Grenzwerte für die optische Zeichenerkennung
Sie können bis zu 30 Bilder pro Minute erkennen, was einem Bild alle zwei Sekunden pro Appliance-Einheit entspricht.
Die API-Methoden BatchAnnotateImages
und BatchAnnotateFiles
unterstützen nur eine Anfrage pro Batchaufruf.
In der folgenden Tabelle sind die aktuellen Limits des OCR-Dienstes in Distributed Cloud aufgeführt.
Dateilimit für OCR | Wert |
---|---|
Maximale Anzahl von Seiten | Fünf |
Maximale Dateigröße | 20 MB |
Maximale Bildgröße | 20 Millionen Pixel (Länge × Breite) |
Für Dateien, die für die OCR API eingereicht werden und die maximale Anzahl von Seiten oder die maximale Dateigröße überschreiten, wird ein Fehler zurückgegeben. Eingereichte Dateien, die die maximale Bildgröße überschreiten, werden auf 20 Millionen Pixel verkleinert.
Für OCR unterstützte Dateitypen
Die vortrainierte OCR-API erkennt und transkribiert Text aus den folgenden Dateitypen:
- TIFF
- JPG
- PNG
Sie müssen die Dateien lokal in Ihrer Distributed Cloud-Umgebung speichern. Sie können nicht auf Dateien zugreifen, die in Cloud Storage gehostet werden, oder auf öffentlich verfügbare Dateien, um Text zu erkennen.