Hier erfahren Sie, wie Sie optische Zeichenerkennung (Optical Character Recognition, OCR) auf der Google Cloud Platform ausführen. In dieser Anleitung wird gezeigt, wie Sie Bilddateien in Google Cloud Storage hochladen, Text mit der Google Cloud Vision API aus den Bildern extrahieren, den Text mithilfe der Google Cloud Translation API übersetzen und Ihre Übersetzungen wieder in Cloud Storage speichern. Google Cloud Pub/Sub wird verwendet, um verschiedene Aufgaben in eine Warteschlange zu stellen und die entsprechenden Cloud Functions für ihre Ausführung auszulösen.
Weitere Informationen zum Senden einer Anfrage zur Texterkennung (OCR) finden Sie unter Text in Bildern erkennen, Handschrift in Bildern erkennen und Text in Dateien erkennen (PDF/TIFF).
Lernziele
- Mehrere Cloud Functions-Hintergrundfunktionen schreiben und bereitstellen
- Bilder in Cloud Storage hochladen
- In hochgeladenen Bildern enthaltenen Text extrahieren, übersetzen und speichern
Kosten
In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:
- Cloud Functions
- Pub/Sub
- Cloud Storage
- Cloud Translation API
- Cloud Vision
Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.
Hinweis
- Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Cloud Functions, Cloud Build, Cloud Pub/Sub, Cloud Storage, Cloud Translation, and Cloud Vision APIs aktivieren.
- Installieren Sie die Google Cloud CLI.
-
Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:
gcloud init
-
Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Cloud Functions, Cloud Build, Cloud Pub/Sub, Cloud Storage, Cloud Translation, and Cloud Vision APIs aktivieren.
- Installieren Sie die Google Cloud CLI.
-
Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:
gcloud init
- Bereiten Sie die Entwicklungsumgebung vor.
Wenn Sie die gcloud CLI bereits installiert haben, aktualisieren Sie sie mit dem folgenden Befehl:
gcloud components update
Datenfluss visualisieren
Der Datenfluss in der Anwendung der OCR-Anleitung umfasst mehrere Schritte:
- Ein Bild, das Text in einer beliebigen Sprache enthält, wird in Cloud Storage hochgeladen.
- Eine Cloud Functions-Funktion wird ausgelöst, die mit der Vision API den Text extrahiert und die Ausgangssprache erkennt.
- Der Text wird für die Übersetzung durch Veröffentlichen einer Nachricht in einem Pub/Sub-Thema in die Warteschlange gestellt. Für jede Zielsprache, die nicht der Ausgangssprache entspricht, wird eine Übersetzung in die Warteschlange gestellt.
- Wenn eine Zielsprache mit der Ausgangssprache übereinstimmt, wird die Übersetzungswarteschlange übersprungen und Text wird an die Ergebniswarteschlange – ein anderes Pub/Sub-Thema – gesendet.
- Eine Cloud Functions-Funktion verwendet die Translation API, um den Text in der Übersetzungswarteschlange zu übersetzen. Die Übersetzung wird dann an die Ergebniswarteschlange gesendet.
- Eine andere Cloud Functions-Funktion speichert den übersetzten Text aus der Ergebniswarteschlange in Cloud Storage.
- Die Ergebnisse sind in Cloud Storage für jede Übersetzung als Textdateien zu finden.
Eine grafische Darstellung des Ablaufs:
Anwendung vorbereiten
Erstellen Sie einen Cloud Storage-Bucket, auf den Bilder hochgeladen werden sollen, wobei
YOUR_IMAGE_BUCKET_NAME
ein global eindeutiger Bucket-Name ist:gsutil mb gs://
YOUR_IMAGE_BUCKET_NAME
Erstellen Sie einen Cloud Storage-Bucket, in dem Textübersetzungen gespeichert werden sollen, wobei
YOUR_RESULT_BUCKET_NAME
ein global eindeutiger Bucket-Name ist:gsutil mb gs://
YOUR_RESULT_BUCKET_NAME
Erstellen Sie ein Cloud Pub/Sub-Thema, in dem Übersetzungsanfragen veröffentlicht werden sollen, wobei
YOUR_TRANSLATE_TOPIC_NAME
der Name des Themas für die Übersetzungsanfrage ist:gcloud pubsub topics create
YOUR_TRANSLATE_TOPIC_NAME
Erstellen Sie ein Cloud Pub/Sub-Thema, in dem die fertigen Übersetzungsergebnisse veröffentlicht werden sollen, wobei
YOUR_RESULT_TOPIC_NAME
der Name des Themas für die Übersetzungsergebnisse ist:gcloud pubsub topics create
YOUR_RESULT_TOPIC_NAME
Klonen Sie das Repository der Beispiel-App auf Ihren lokalen Computer:
Node.js
git clone https://github.com/GoogleCloudPlatform/nodejs-docs-samples.git
Sie können auch das Beispiel als ZIP-Datei herunterladen und extrahieren.
Python
git clone https://github.com/GoogleCloudPlatform/python-docs-samples.git
Sie können auch das Beispiel als ZIP-Datei herunterladen und extrahieren.
Einfach loslegen (Go)
git clone https://github.com/GoogleCloudPlatform/golang-samples.git
Sie können auch das Beispiel als ZIP-Datei herunterladen und extrahieren.
Java
git clone https://github.com/GoogleCloudPlatform/java-docs-samples.git
Sie können auch das Beispiel als ZIP-Datei herunterladen und extrahieren.
Wechseln Sie in das Verzeichnis, das den Cloud Functions-Beispielcode enthält:
Node.js
cd nodejs-docs-samples/functions/ocr/app/
Python
cd python-docs-samples/functions/ocr/app/
Einfach loslegen (Go)
cd golang-samples/functions/ocr/app/
Java
cd java-docs-samples/functions/ocr/ocr-process-image/
Code verstehen
Abhängigkeiten importieren
Die Anwendung muss mehrere Abhängigkeiten importieren, um mit den Google Cloud Platform-Diensten zu kommunizieren:
Node.js
Python
Einfach loslegen (Go)
Java
Bilder verarbeiten
Die folgende Funktion dient dazu, eine hochgeladene Bilddatei aus Cloud Storage auszulesen und eine Funktion aufzurufen, mit der erkannt wird, ob das Bild Text enthält:
Node.js
Python
Einfach loslegen (Go)
Java
Die folgende Funktion extrahiert mithilfe der Cloud Vision API Text aus dem Bild und stellt den zu übersetzenden Text in eine Warteschlange:
Node.js
Python
Einfach loslegen (Go)
Java
Text übersetzen
Mit der folgenden Funktion wird der extrahierte Text übersetzt und der übersetzte Text in die Warteschlange gestellt, um wieder in Cloud Storage gespeichert zu werden:
Node.js
Python
Einfach loslegen (Go)
Java
Übersetzungen speichern
Mit der folgenden Funktion wird der übersetzte Text erhalten und wieder in Cloud Storage gespeichert:
Node.js
Python
Einfach loslegen (Go)
Java
Funktionen bereitstellen
Führen Sie diesen Befehl im dem Verzeichnis mit dem Beispielcode (oder im Fall von Java die Datei
pom.xml
) aus, um die Bildverarbeitungsfunktion mit einem Cloud Storage-Trigger bereitzustellen:Node.js
gcloud functions deploy ocr-extract \ --runtime nodejs20 \
--trigger-bucket YOUR_IMAGE_BUCKET_NAME \
--entry-point processImage \
--set-env-vars "^:^GCP_PROJECT=YOUR_GCP_PROJECT_ID:TRANSLATE_TOPIC=YOUR_TRANSLATE_TOPIC_NAME:RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME:TO_LANG=es,en,fr,ja"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Node.js-Version anzugeben und die Funktion auszuführen.Python
gcloud functions deploy ocr-extract \ --runtime python312 \
--trigger-bucket YOUR_IMAGE_BUCKET_NAME \
--entry-point process_image \
--set-env-vars "^:^GCP_PROJECT=YOUR_GCP_PROJECT_ID:TRANSLATE_TOPIC=YOUR_TRANSLATE_TOPIC_NAME:RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME:TO_LANG=es,en,fr,ja"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Python-Version anzugeben und die Funktion auszuführen.Einfach loslegen (Go)
gcloud functions deploy ocr-extract \ --runtime go121 \
--trigger-bucket YOUR_IMAGE_BUCKET_NAME \
--entry-point ProcessImage \
--set-env-vars "^:^GCP_PROJECT=YOUR_GCP_PROJECT_ID:TRANSLATE_TOPIC=YOUR_TRANSLATE_TOPIC_NAME:RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME:TO_LANG=es,en,fr,ja"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Go-Version anzugeben und die Funktion auszuführen.Java
gcloud functions deploy ocr-extract \ --entry-point functions.OcrProcessImage \ --runtime java17 \ --memory 512MB \
--trigger-bucket YOUR_IMAGE_BUCKET_NAME \
--set-env-vars "^:^GCP_PROJECT=YOUR_GCP_PROJECT_ID:TRANSLATE_TOPIC=YOUR_TRANSLATE_TOPIC_NAME:RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME:TO_LANG=es,en,fr,ja"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Java-Version anzugeben und die Funktion auszuführen.Dabei ist
YOUR_IMAGE_BUCKET_NAME
der Name des Cloud Storage-Buckets, in den Sie die Images hochladen.Führen Sie diesen Befehl in dem Verzeichnis mit dem Beispielcode (oder im Fall von Java die Datei
pom.xml
) aus, um die Textübersetzungsfunktion mit einem Cloud Pub/Sub-Trigger bereitzustellen:Node.js
gcloud functions deploy ocr-translate \ --runtime nodejs20 \
--trigger-topic YOUR_TRANSLATE_TOPIC_NAME \
--entry-point translateText \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Node.js-Version anzugeben und die Funktion auszuführen.Python
gcloud functions deploy ocr-translate \ --runtime python312 \
--trigger-topic YOUR_TRANSLATE_TOPIC_NAME \
--entry-point translate_text \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Python-Version anzugeben und die Funktion auszuführen.Einfach loslegen (Go)
gcloud functions deploy ocr-translate \ --runtime go121 \
--trigger-topic YOUR_TRANSLATE_TOPIC_NAME \
--entry-point TranslateText \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Go-Version anzugeben und die Funktion auszuführen.Java
gcloud functions deploy ocr-translate \ --entry-point functions.OcrTranslateText \ --runtime java17 \ --memory 512MB \
--trigger-topic YOUR_TRANSLATE_TOPIC_NAME \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Java-Version anzugeben und die Funktion auszuführen.Führen Sie diesen Befehl in dem Verzeichnis mit dem Beispielcode (oder im Fall von Java die Datei
pom.xml
) aus, um die Funktion bereitzustellen, die Ergebnisse mit einem Cloud Pub/Sub-Trigger in Cloud Storage speichert:Node.js
gcloud functions deploy ocr-save \ --runtime nodejs20 \
--trigger-topic YOUR_RESULT_TOPIC_NAME \
--entry-point saveResult \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_BUCKET=YOUR_RESULT_BUCKET_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Node.js-Version anzugeben und die Funktion auszuführen.Python
gcloud functions deploy ocr-save \ --runtime python312 \
--trigger-topic YOUR_RESULT_TOPIC_NAME \
--entry-point save_result \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_BUCKET=YOUR_RESULT_BUCKET_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Python-Version anzugeben und die Funktion auszuführen.Einfach loslegen (Go)
gcloud functions deploy ocr-save \ --runtime go121 \
--trigger-topic YOUR_RESULT_TOPIC_NAME \
--entry-point SaveResult \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_BUCKET=YOUR_RESULT_BUCKET_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Go-Version anzugeben und die Funktion auszuführen.Java
gcloud functions deploy ocr-save \ --entry-point functions.OcrSaveResult \ --runtime java17 \ --memory 512MB \
--trigger-topic YOUR_RESULT_TOPIC_NAME \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_BUCKET=YOUR_RESULT_BUCKET_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Java-Version anzugeben und die Funktion auszuführen.
Bild hochladen
Laden Sie ein Bild in den Cloud Storage-Bucket für Bilder hoch:
gsutil cp
PATH_TO_IMAGE
gs://YOUR_IMAGE_BUCKET_NAME
Dabei gilt:
PATH_TO_IMAGE
ist ein Pfad zu einer Bilddatei (u. a. mit Text) auf Ihrem lokalen System.YOUR_IMAGE_BUCKET_NAME
ist der Name des Buckets, in den Sie Bilder hochladen.
Sie können eines der Bilder aus dem Beispielprojekt herunterladen.
Prüfen Sie in den Logs, ob die Ausführungen abgeschlossen wurden:
gcloud functions logs read --limit 100
Sie können die gespeicherten Übersetzungen in dem Cloud Storage-Bucket anzeigen, den Sie für
YOUR_RESULT_BUCKET_NAME
verwendet haben.
Bereinigen
Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.
Projekt löschen
Am einfachsten vermeiden Sie weitere Kosten, wenn Sie das zum Ausführen der Anleitung erstellte Projekt löschen.
So löschen Sie das Projekt:
- Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.
- Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
- Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.
Cloud Functions-Funktionen löschen
Durch das Löschen von Cloud Functions-Funktionen werden keine in Cloud Storage gespeicherten Ressourcen entfernt.
Führen Sie die folgenden Befehle aus, um die in dieser Anleitung erstellten Cloud Functions-Funktionen zu löschen:
gcloud functions delete ocr-extract gcloud functions delete ocr-translate gcloud functions delete ocr-save
Sie können Cloud Functions-Funktionen auch über die Google Cloud Console löschen.