Funktionen zur Zeichenerkennung

Die optische Zeichenerkennung (Optical Character Recognition, OCR) ist eine der drei vortrainierten Vertex AI-APIs auf der GDC-Appliance (Google Distributed Cloud) mit Air Gap. Der OCR-Dienst erkennt Text in verschiedenen Dateitypen, z. B. in Bildern, Dokumentdateien und handgeschriebenem Text.

OCR bietet die folgenden Methoden, die in der GDC-Air-Gap-Appliance zur Texterkennung verfügbar sind:

Methode	Beschreibung
`BatchAnnotateImages`	Text aus einer Gruppe von JPEG- oder PNG-Bildern erkennen, die in einer Inline-Anfrage bereitgestellt werden.
`BatchAnnotateFiles`	Text aus einem Batch von PDF- oder TIFF-Dateien erkennen, die in einer Inline-Anfrage bereitgestellt werden.

Weitere Informationen zu den von der Texterkennung unterstützten Sprachen

Funktionen zur optischen Zeichenerkennung

Mit der OCR API können Sie Text in Bildern erkennen und extrahieren. Die folgenden beiden Anmerkungsfunktionen unterstützen die optische Zeichenerkennung:

TEXT_DETECTION erkennt und extrahiert Text aus beliebigen Bildern. Nehmen wir als Beispiel ein Foto von einem Straßenschild oder Verkehrszeichen. Der OCR-Dienst gibt eine JSON-Datei mit dem extrahierten String, einzelnen Wörtern und deren Begrenzungsrahmen zurück.

Abbildung 1. Foto eines Straßenschilds, auf dem die OCR API Wörter und deren Begrenzungsrahmen erkennt.
DOCUMENT_TEXT_DETECTION extrahiert zusätzlich Text aus einem Bild, wobei die Antwort für Fließtext und Dokumente optimiert ist. Ein gescanntes Bild mit getipptem Text kann beispielsweise mehrere Absätze und Überschriften enthalten. Der OCR-Dienst gibt eine JSON-Datei mit Informationen zu Seite, Block, Absatz, Wort und Worttrennung zurück.

Abbildung 2. Gescannte Abbildung von getipptem Text, in der die OCR API Informationen wie Wörter, Seiten und Absätze erkennt.

Handschriftlicher Text

Abbildung 3 zeigt ein Bild mit handschriftlichem Text. Die OCR API erkennt und extrahiert Text aus diesen Bildern. Eine Liste der Handschrift-Scripts, die die Handschrifterkennung unterstützen, finden Sie unter Handschrift-Scripts.

Abbildung mit handschriftlichem Text

Abbildung 3. Bild mit Handschrift, in dem die OCR API Text erkennt.

Grenzwerte für die optische Zeichenerkennung

Sie können bis zu 30 Bilder pro Minute erkennen, was einem Bild alle zwei Sekunden pro Appliance-Einheit entspricht.

Die API-Methoden BatchAnnotateImages und BatchAnnotateFiles unterstützen nur eine Anfrage pro Batchaufruf.

In der folgenden Tabelle sind die aktuellen Limits des OCR-Dienstes in Distributed Cloud aufgeführt.

Dateilimit für OCR	Wert
Maximale Anzahl von Seiten	Fünf
Maximale Dateigröße	20 MB
Maximale Bildgröße	20 Millionen Pixel (Länge × Breite)

Für Dateien, die für die OCR API eingereicht werden und die maximale Anzahl von Seiten oder die maximale Dateigröße überschreiten, wird ein Fehler zurückgegeben. Eingereichte Dateien, die die maximale Bildgröße überschreiten, werden auf 20 Millionen Pixel verkleinert.

Für OCR unterstützte Dateitypen

Die vortrainierte OCR-API erkennt und transkribiert Text aus den folgenden Dateitypen:

PDF
TIFF
JPG
PNG

Sie müssen die Dateien lokal in Ihrer Distributed Cloud-Umgebung speichern. Sie können nicht auf Dateien zugreifen, die in Cloud Storage gehostet werden, oder auf öffentlich verfügbare Dateien, um Text zu erkennen.