Hier erfahren Sie, wie Sie optische Zeichenerkennung (Optical Character Recognition, OCR) auf der Google Cloud Platform ausführen. In dieser Anleitung wird gezeigt, wie Sie Bilddateien in Cloud Storage hochladen, Text mit Cloud Vision aus den Bildern extrahieren, den Text mit der Cloud Translation API übersetzen und die Übersetzungen wieder in Cloud Storage speichern. Pub/Sub wird verwendet, um verschiedene Aufgaben in eine Warteschlange zu stellen und die entsprechenden Cloud Functions-Funktionen für ihre Ausführung auszulösen.
Weitere Informationen zum Senden einer Anfrage zur Texterkennung (OCR) finden Sie unter Text in Bildern erkennen, Handschrift in Bildern erkennen und Text in Dateien erkennen (PDF/TIFF).
Ziele
- Mehrere ereignisgesteuerte Funktionen schreiben und bereitstellen
- Bilder in Cloud Storage hochladen
- Text, der in hochgeladenen Bildern enthalten ist, extrahieren, übersetzen und speichern
Kosten
In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:
- Cloud Run functions
- Cloud Build
- Pub/Sub
- Artifact Registry
- Eventarc
- Cloud Run
- Cloud Logging
- Cloud Storage
- Cloud Translation API
- Cloud Vision
Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.
Vorbereitung
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Functions, Cloud Build, Cloud Run, Artifact Registry, Eventarc, Logging, Pub/Sub, Cloud Storage, Cloud Translation, and Cloud Vision APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Functions, Cloud Build, Cloud Run, Artifact Registry, Eventarc, Logging, Pub/Sub, Cloud Storage, Cloud Translation, and Cloud Vision APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
- Bereiten Sie die Entwicklungsumgebung vor.
Wenn Sie die gcloud CLI bereits installiert haben, aktualisieren Sie sie mit dem folgenden Befehl:
gcloud components update
Datenfluss visualisieren
Der Datenfluss in der Anwendung der OCR-Anleitung umfasst mehrere Schritte:
- Ein Bild, das Text in einer beliebigen Sprache enthält, wird in Cloud Storage hochgeladen.
- Eine Cloud Run Functions-Funktion wird ausgelöst, die mit der Vision API den Text extrahiert und die Ausgangssprache erkennt.
- Der Text wird für die Übersetzung durch Veröffentlichen einer Nachricht in einem Pub/Sub-Thema in die Warteschlange gestellt. Für jede Zielsprache, die nicht der Ausgangssprache entspricht, wird eine Übersetzung in die Warteschlange gestellt.
- Wenn eine Zielsprache mit der Ausgangssprache übereinstimmt, wird die Übersetzungswarteschlange übersprungen und Text wird an die Ergebniswarteschlange – ein anderes Pub/Sub-Thema – gesendet.
- Eine Cloud Run Functions-Funktion verwendet die Cloud Translation API, um den Text in der Übersetzungswarteschlange zu übersetzen. Die Übersetzung wird dann an die Ergebniswarteschlange gesendet.
- Eine andere Cloud Run Functions-Funktion speichert den übersetzten Text aus der Ergebniswarteschlange in Cloud Storage.
- Die Ergebnisse sind in Cloud Storage für jede Übersetzung als Textdateien zu finden.
Eine grafische Darstellung des Ablaufs:
Anwendung vorbereiten
Erstellen Sie einen Cloud Storage-Bucket, auf den Bilder hochgeladen werden sollen, wobei
YOUR_IMAGE_BUCKET_NAME
ein global eindeutiger Bucket-Name ist:gcloud storage buckets create gs://
YOUR_IMAGE_BUCKET_NAME
Erstellen Sie einen Cloud Storage-Bucket, in dem Textübersetzungen gespeichert werden sollen, wobei
YOUR_RESULT_BUCKET_NAME
ein global eindeutiger Bucket-Name ist:gcloud storage buckets create gs://
YOUR_RESULT_BUCKET_NAME
Erstellen Sie ein Pub/Sub-Thema, in dem Übersetzungsanfragen veröffentlicht werden sollen, wobei
YOUR_TRANSLATE_TOPIC_NAME
der Name des Themas für die Übersetzungsanfrage ist:gcloud pubsub topics create
YOUR_TRANSLATE_TOPIC_NAME
Erstellen Sie ein Pub/Sub-Thema, in dem die fertigen Übersetzungsergebnisse veröffentlicht werden sollen, wobei
YOUR_RESULT_TOPIC_NAME
der Name des Themas für die Übersetzungsergebnisse ist:gcloud pubsub topics create
YOUR_RESULT_TOPIC_NAME
Klonen Sie das Repository der Beispiel-App auf Ihren lokalen Computer:
Node.js
git clone https://github.com/GoogleCloudPlatform/nodejs-docs-samples.git
Sie können auch das Beispiel als ZIP-Datei herunterladen und extrahieren.
Python
git clone https://github.com/GoogleCloudPlatform/python-docs-samples.git
Sie können auch das Beispiel als ZIP-Datei herunterladen und extrahieren.
Go
git clone https://github.com/GoogleCloudPlatform/golang-samples.git
Sie können auch das Beispiel als ZIP-Datei herunterladen und extrahieren.
Java
git clone https://github.com/GoogleCloudPlatform/java-docs-samples.git
Sie können auch das Beispiel als ZIP-Datei herunterladen und extrahieren.
Wechseln Sie in das Verzeichnis, das den Beispielcode für Cloud Run-Funktionen enthält:
Node.js
cd nodejs-docs-samples/functions/v2/ocr/app/
Python
cd python-docs-samples/functions/v2/ocr/
Go
cd golang-samples/functions/functionsv2/ocr/app/
Java
cd java-docs-samples/functions/v2/ocr/ocr-process-image/
Den Code verstehen
In diesem Abschnitt werden die Abhängigkeiten und Funktionen beschrieben, aus denen das OCR-Beispiel besteht.
Abhängigkeiten importieren
Die Anwendung muss mehrere Abhängigkeiten importieren, um mit den Google Cloud Platform-Diensten zu kommunizieren:
Node.js
Python
Go
Java
Bilder verarbeiten
Die folgende Funktion dient dazu, eine hochgeladene Bilddatei aus Cloud Storage auszulesen und eine Funktion aufzurufen, mit der erkannt wird, ob das Bild Text enthält:
Node.js
Python
Go
Java
Die folgende Funktion extrahiert mithilfe der Vision API Text aus dem Bild und stellt den zu übersetzenden Text in eine Warteschlange:
Node.js
Python
Go
Java
Text übersetzen
Mit der folgenden Funktion wird der extrahierte Text übersetzt und der übersetzte Text in die Warteschlange gestellt, um wieder in Cloud Storage gespeichert zu werden:
Node.js
Python
Go
Java
Übersetzungen speichern
Mit der folgenden Funktion wird der übersetzte Text erhalten und wieder in Cloud Storage gespeichert:
Node.js
Python
Go
Java
Funktionen bereitstellen
Führen Sie diesen Befehl im dem Verzeichnis mit dem Beispielcode (oder im Fall von Java die Datei
pom.xml
) aus, um die Bildverarbeitungsfunktion mit einem Cloud Storage-Trigger bereitzustellen:Node.js
gcloud functions deploy ocr-extract \ --gen2 \ --runtime=nodejs22 \ --region=
REGION
\ --source=. \ --entry-point=processImage \
--trigger-bucket YOUR_IMAGE_BUCKET_NAME \
--set-env-vars "^:^GCP_PROJECT=YOUR_GCP_PROJECT_ID:TRANSLATE_TOPIC=YOUR_TRANSLATE_TOPIC_NAME:RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME:TO_LANG=es,en,fr,ja"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Node.js-Version anzugeben und die Funktion auszuführen.Python
gcloud functions deploy ocr-extract \ --gen2 \ --runtime=python312 \ --region=
REGION
\ --source=. \ --entry-point=process_image \
--trigger-bucket YOUR_IMAGE_BUCKET_NAME \
--set-env-vars "^:^GCP_PROJECT=YOUR_GCP_PROJECT_ID:TRANSLATE_TOPIC=YOUR_TRANSLATE_TOPIC_NAME:RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME:TO_LANG=es,en,fr,ja"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Python-Version anzugeben und die Funktion auszuführen.Go
gcloud functions deploy ocr-extract \ --gen2 \ --runtime=go122 \ --region=
REGION
\ --source=. \ --entry-point=process-image \
--trigger-bucket YOUR_IMAGE_BUCKET_NAME \
--set-env-vars "^:^GCP_PROJECT=YOUR_GCP_PROJECT_ID:TRANSLATE_TOPIC=YOUR_TRANSLATE_TOPIC_NAME:RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME:TO_LANG=es,en,fr,ja"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Go-Version anzugeben und die Funktion auszuführen.Java
gcloud functions deploy ocr-extract \ --gen2 \ --runtime=java21 \ --region=
REGION
\ --source=. \ --entry-point=functions.OcrProcessImage \ --memory=512MB \
--trigger-bucket YOUR_IMAGE_BUCKET_NAME \
--set-env-vars "^:^GCP_PROJECT=YOUR_GCP_PROJECT_ID:TRANSLATE_TOPIC=YOUR_TRANSLATE_TOPIC_NAME:RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME:TO_LANG=es,en,fr,ja"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Java-Version anzugeben und die Funktion auszuführen.Ersetzen Sie dabei Folgendes:
- REGION: Der Name der Google Cloud-Region, in der Sie die Funktion bereitstellen möchten (z. B.
us-west1
). - YOUR_IMAGE_BUCKET_NAME: Der Name des Cloud Storage-Buckets, in den Sie die Bilder hochladen. Geben Sie beim Bereitstellen von Cloud Run Functions-Funktionen nur den Bucket-Namen ohne das führende
gs://
an, z. B.--trigger-event-filters="bucket=my-bucket"
.
- REGION: Der Name der Google Cloud-Region, in der Sie die Funktion bereitstellen möchten (z. B.
Führen Sie diesen Befehl in dem Verzeichnis mit dem Beispielcode (oder im Fall von Java die Datei
pom.xml
) aus, um die Textübersetzungsfunktion mit einem Pub/Sub-Trigger bereitzustellen:Node.js
gcloud functions deploy ocr-translate \ --gen2 \ --runtime=nodejs22 \ --region=
REGION
\ --source=. \ --entry-point=translateText \
--trigger-topic YOUR_TRANSLATE_TOPIC_NAME \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Node.js-Version anzugeben und die Funktion auszuführen.Python
gcloud functions deploy ocr-translate \ --gen2 \ --runtime=python312 \ --region=
REGION
\ --source=. \ --entry-point=translate_text \
--trigger-topic YOUR_TRANSLATE_TOPIC_NAME \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Python-Version anzugeben und die Funktion auszuführen.Go
gcloud functions deploy ocr-translate \ --gen2 \ --runtime=go122 \ --region=
REGION
\ --source=. \ --entry-point=translate-text \
--trigger-topic YOUR_TRANSLATE_TOPIC_NAME \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Go-Version anzugeben und die Funktion auszuführen.Java
gcloud functions deploy ocr-translate \ --gen2 \ --runtime=java21 \ --region=
REGION
\ --source=. \ --entry-point=functions.OcrTranslateText \ --memory=512MB \
--trigger-topic YOUR_TRANSLATE_TOPIC_NAME \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_TOPIC=YOUR_RESULT_TOPIC_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Java-Version anzugeben und die Funktion auszuführen.Führen Sie diesen Befehl in dem Verzeichnis mit dem Beispielcode (oder im Fall von Java die Datei
pom.xml
) aus, um die Funktion bereitzustellen, die Ergebnisse mit einem Pub/Sub-Trigger in Cloud Storage speichert:Node.js
gcloud functions deploy ocr-save \ --gen2 \ --runtime=nodejs22 \ --region=
REGION
\ --source=. \ --entry-point=saveResult \
--trigger-topic YOUR_RESULT_TOPIC_NAME \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_BUCKET=YOUR_RESULT_BUCKET_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Node.js-Version anzugeben und die Funktion auszuführen.Python
gcloud functions deploy ocr-save \ --gen2 \ --runtime=python312 \ --region=
REGION
\ --source=. \ --entry-point=save_result \
--trigger-topic YOUR_RESULT_TOPIC_NAME \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_BUCKET=YOUR_RESULT_BUCKET_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Python-Version anzugeben und die Funktion auszuführen.Go
gcloud functions deploy ocr-save \ --gen2 \ --runtime=go122 \ --region=
REGION
\ --source=. \ --entry-point=save-result \
--trigger-topic YOUR_RESULT_TOPIC_NAME \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_BUCKET=YOUR_RESULT_BUCKET_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Go-Version anzugeben und die Funktion auszuführen.Java
gcloud functions deploy ocr-save \ --gen2 \ --runtime=java21 \ --region=
REGION
\ --source=. \ --entry-point=functions.OcrSaveResult \ --memory=512MB \
--trigger-topic YOUR_RESULT_TOPIC_NAME \
--set-env-vars "GCP_PROJECT=YOUR_GCP_PROJECT_ID,RESULT_BUCKET=YOUR_RESULT_BUCKET_NAME"Verwenden Sie das Flag
--runtime
, um die Laufzeit-ID einer unterstützten Java-Version anzugeben und die Funktion auszuführen.
Bild hochladen
Laden Sie ein Bild in den Cloud Storage-Bucket für Bilder hoch:
gcloud storage cp
PATH_TO_IMAGE
gs://YOUR_IMAGE_BUCKET_NAME
Dabei gilt:
PATH_TO_IMAGE
ist ein Pfad zu einer Bilddatei (u. a. mit Text) auf Ihrem lokalen System.YOUR_IMAGE_BUCKET_NAME
ist der Name des Buckets, in den Sie Bilder hochladen.
Sie können eines der Bilder aus dem Beispielprojekt herunterladen.
Prüfen Sie in den Logs, ob die Ausführungen abgeschlossen wurden:
gcloud functions logs read --limit 100
Sie können die gespeicherten Übersetzungen in dem Cloud Storage-Bucket anzeigen, den Sie für
YOUR_RESULT_BUCKET_NAME
verwendet haben.
Bereinigen
Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.
Projekt löschen
Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.
So löschen Sie das Projekt:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Funktion löschen
Durch das Löschen von Cloud Run-Funktionen werden keine in Cloud Storage gespeicherten Ressourcen entfernt.
Führen Sie die folgenden Befehle aus, um die in dieser Anleitung erstellten Cloud Run Functions-Funktionen zu löschen:
gcloud functions delete ocr-extract gcloud functions delete ocr-translate gcloud functions delete ocr-save
Sie können Cloud Run-Funktionen auch über die Google Cloud Console löschen.