Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Questa pagina mostra come rilevare il testo nei file utilizzando l'API Optical Character Recognition (OCR) sull'appliance air-gapped Google Distributed Cloud (GDC).
Il servizio OCR di Vertex AI sull'appliance
GDC air-gapped rileva il testo nei file PDF e TIFF utilizzando il metodo API
BatchAnnotateFiles.
Prima di iniziare
Prima di poter iniziare a utilizzare l'API OCR, devi disporre di un progetto
con l'API OCR abilitata e delle credenziali appropriate.
Puoi anche installare librerie client per facilitare le chiamate all'API. Per
maggiori informazioni, consulta Configurare un progetto di riconoscimento dei caratteri.
Rilevare il testo con le richieste inline
Il metodo BatchAnnotateFiles rileva il testo da un batch di file PDF o TIFF.
Invii il file da cui vuoi rilevare il testo direttamente come contenuto nella richiesta API. Il sistema restituisce il testo rilevato risultante in formato JSON nella
risposta dell'API.
Devi specificare i valori per i campi nel corpo JSON della richiesta API. La
tabella seguente contiene una descrizione dei campi del corpo della richiesta che devi
fornire quando utilizzi il metodo API BatchAnnotateFiles per le richieste di
rilevamento del testo:
Campi del corpo della richiesta
Descrizione del campo
content
I file con il testo da rilevare. Fornisci la rappresentazione Base64 (stringa ASCII) dei contenuti del file binario.
mime_type
Il tipo di file di origine. Devi impostarlo su uno dei seguenti valori:
application/pdf per i file PDF
image/tiff per i file TIFF
type
Il tipo di rilevamento del testo che ti serve dal file.
Specifica una delle due funzionalità di annotazione:
TEXT_DETECTION rileva ed estrae il testo da qualsiasi file. La risposta JSON include la stringa estratta, le singole parole e i relativi rettangoli di selezione.
DOCUMENT_TEXT_DETECTION estrae anche il testo da un file, ma il servizio ottimizza la risposta per testi e documenti densi. Il formato JSON include informazioni su pagina, blocco, paragrafo, parola e interruzione.
Facoltativo. Elenco delle lingue da utilizzare per il rilevamento del testo.
Il sistema interpreta un valore vuoto per questo campo come rilevamento automatico della lingua.
Non è necessario impostare il campo language_hints per le lingue basate sull'alfabeto latino.
Se conosci la lingua del testo nel file, l'impostazione di un suggerimento migliora i risultati.
pages
Facoltativo. Il numero di pagine del file da elaborare per il rilevamento del testo.
Il numero massimo di pagine che puoi specificare è cinque. Se non specifichi il numero di pagine, il servizio elabora le prime cinque pagine del file.
Eseguire una richiesta API inline
Invia una richiesta all'API preaddestrata OCR utilizzando il metodo dell'API REST. In alternativa, interagisci con l'API preaddestrata OCR da uno script Python per rilevare il testo da file PDF o TIFF.
Gli esempi riportati di seguito mostrano come rilevare il testo in un file utilizzando
l'OCR:
REST
Segui questi passaggi per rilevare il testo nei file utilizzando il metodo dell'API REST:
Salva il seguente file request.json per il corpo della richiesta:
BASE64_ENCODED_FILE: la rappresentazione Base64
(stringa ASCII) dei contenuti del file binario. Questa stringa inizia con
caratteri simili a
/9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
FEATURE_TYPE: il tipo di rilevamento del testo che
ti serve dal file. I valori consentiti sono TEXT_DETECTION o
DOCUMENT_TEXT_DETECTION.
LANGUAGE_HINT: i tag di lingua BCP 47 da utilizzare come
suggerimenti per la lingua per il rilevamento del testo, ad esempio en-t-i0-handwrit. Questo
campo è facoltativo e il sistema interpreta un valore vuoto come rilevamento
automatico della lingua.
Aggiungi il seguente codice allo script Python che hai creato:
fromgoogle.cloudimportvisionimportgoogle.authfromgoogle.auth.transportimportrequestsfromgoogle.api_core.client_optionsimportClientOptionsaudience="https://ENDPOINT:443"api_endpoint="ENDPOINT:443"defvision_client(creds):opts=ClientOptions(api_endpoint=api_endpoint)returnvision.ImageAnnotatorClient(credentials=creds,client_options=opts)defmain():creds=Nonetry:creds,project_id=google.auth.default()creds=creds.with_gdch_audience(audience)req=requests.Request()creds.refresh(req)print("Got token: ")print(creds.token)exceptExceptionase:print("Caught exception"+str(e))raiseereturncredsdefvision_func(creds):vc=vision_client(creds)input_config={"content":"BASE64_ENCODED_FILE"}features=[{"type_":vision.Feature.Type.FEATURE_TYPE}]# Each requests element corresponds to a single file. To annotate more# files, create a request element for each file and add it to# the array of requestsreq={"input_config":input_config,"features":features}metadata=[("x-goog-user-project","projects/PROJECT_ID")]resp=vc.annotate_file(req,metadata=metadata)print(resp)if__name__=="__main__":creds=main()vision_func(creds)
BASE64_ENCODED_FILE: la rappresentazione Base64
(stringa ASCII) dei contenuti del file. Questa stringa inizia con
caratteri simili a
/9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
FEATURE_TYPE: il tipo di rilevamento del testo che
ti serve dal file. I valori consentiti sono TEXT_DETECTION o
DOCUMENT_TEXT_DETECTION.
PROJECT_ID: il tuo ID progetto.
Salva lo script Python.
Esegui lo script Python per rilevare il testo nel file:
pythonSCRIPT_NAME
Sostituisci SCRIPT_NAME con il nome che hai assegnato allo script Python, ad esempio vision.py.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-04 UTC."],[],[],null,["# Detect text in files\n\nThis page shows you how to detect text in files using the\nOptical Character Recognition (OCR) API on Google Distributed Cloud (GDC) air-gapped appliance.\n\nThe OCR service of Vertex AI on\nGDC air-gapped appliance detects text in PDF and TIFF files using the\n`BatchAnnotateFiles` API method.\n| **Note:** The `BatchAnnotateFiles` API method only supports a single request per batch call.\n\nBefore you begin\n----------------\n\nBefore you can start using the OCR API, you must have a project\nwith the OCR API enabled and have the appropriate credentials.\nYou can also install client libraries to help you make calls to the API. For\nmore information, see [Set up a character recognition project](/distributed-cloud/hosted/docs/latest/appliance/application/ao-user/vai-set-up-ocr).\n\nDetect text with inline requests\n--------------------------------\n\nThe `BatchAnnotateFiles` method detects text from a batch of PDF or TIFF files.\nYou send the file from which you want to detect text directly as content in the\nAPI request. The system returns the resulting detected text in JSON format in\nthe API response.\n\nYou must specify values for the fields in the JSON body of your API request. The\nfollowing table contains a description of the request body fields you must\nprovide when you use the `BatchAnnotateFiles` API method for your text\ndetection requests:\n\n### Make an inline API request\n\nMake a request to the OCR pre-trained API using the REST API\nmethod. Otherwise, interact with the OCR pre-trained API from a\nPython script to detect text from PDF or TIFF files.\n| **Note:** The `BatchAnnotateFiles` API method only supports a single request per batch call.\n\nThe following examples show how to detect text in a file using\nOCR: \n\n### REST\n\nFollow these steps to detect text in files using the REST API method:\n\n1. Save the following `request.json` file for your request body:\n\n cat \u003c\u003c- EOF \u003e request.json\n {\n \"requests\": [\n {\n \"input_config\": {\n \"content\": \u003cvar translate=\"no\"\u003e\u003cspan class=\"devsite-syntax-err\"\u003eBASE\u003c/span\u003e\u003cspan class=\"devsite-syntax-mi\"\u003e64\u003c/span\u003e\u003cspan class=\"devsite-syntax-err\"\u003e_ENCODED_FILE\u003c/span\u003e\u003c/var\u003e,\n \"mime_type\": \"application/pdf\"\n },\n \"features\": [\n {\n \"type\": \"\u003cvar translate=\"no\"\u003eFEATURE_TYPE\u003c/var\u003e\"\n }\n ],\n \"image_context\": {\n \"language_hints\": [\n \"\u003cvar translate=\"no\"\u003eLANGUAGE_HINT_1\u003c/var\u003e\",\n \"\u003cvar translate=\"no\"\u003eLANGUAGE_HINT_2\u003c/var\u003e\",\n ...\n ]\n },\n \"pages\": []\n }\n ]\n }\n EOF\n\n Replace the following:\n - \u003cvar translate=\"no\"\u003eBASE64_ENCODED_FILE\u003c/var\u003e: the Base64 representation (ASCII string) of your binary file content. This string begins with characters that look similar to `/9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==`.\n - \u003cvar translate=\"no\"\u003eFEATURE_TYPE\u003c/var\u003e: the type of text detection you need from the file. Allowed values are `TEXT_DETECTION` or `DOCUMENT_TEXT_DETECTION`.\n - \u003cvar translate=\"no\"\u003eLANGUAGE_HINT\u003c/var\u003e: the BCP 47 language tags to use as language hints for text detection, such as `en-t-i0-handwrit`. This field is optional and the system interprets an empty value as automatic language detection.\n2. [Get an authentication token](/distributed-cloud/hosted/docs/latest/appliance/application/ao-user/vertex-ai-api-auth).\n\n3. Make the request:\n\n ### curl\n\n curl -X POST \\\n -H \"Authorization: Bearer \u003cvar translate=\"no\"\u003eTOKEN\u003c/var\u003e\" \\\n -H \"x-goog-user-project: projects/\u003cvar translate=\"no\"\u003ePROJECT_ID\u003c/var\u003e\" \\\n -H \"Content-Type: application/json; charset=utf-8\" \\\n -d @request.json \\\n https://\u003cvar translate=\"no\"\u003eENDPOINT\u003c/var\u003e/v1/files:annotate\n\n Replace the following:\n - \u003cvar translate=\"no\"\u003eTOKEN\u003c/var\u003e: [the authentication token](/distributed-cloud/hosted/docs/latest/appliance/application/ao-user/vertex-ai-api-auth) you obtained.\n - \u003cvar translate=\"no\"\u003ePROJECT_ID\u003c/var\u003e: your project ID.\n - \u003cvar translate=\"no\"\u003eENDPOINT\u003c/var\u003e: the OCR endpoint that you use for your organization. For more information, [view service status and endpoints](/distributed-cloud/hosted/docs/latest/appliance/application/ao-user/vertex-ai-api-status).\n\n ### PowerShell\n\n $headers = @{\n \"Authorization\" = \"Bearer \u003cvar translate=\"no\"\u003eTOKEN\u003c/var\u003e\"\n \"x-goog-user-project\" = \"projects/\u003cvar translate=\"no\"\u003ePROJECT_ID\u003c/var\u003e\"\n }\n\n Invoke-WebRequest\n -Method POST\n -Headers $headers\n -ContentType: \"application/json; charset=utf-8\"\n -InFile request.json\n -Uri \"\u003cvar translate=\"no\"\u003eENDPOINT\u003c/var\u003e/v1/files:annotate\" | Select-Object -Expand Content\n\n Replace the following:\n - \u003cvar translate=\"no\"\u003eTOKEN\u003c/var\u003e: [the authentication token](/distributed-cloud/hosted/docs/latest/appliance/application/ao-user/vertex-ai-api-auth) you obtained.\n - \u003cvar translate=\"no\"\u003eENDPOINT\u003c/var\u003e: the OCR endpoint that you use for your organization. For more information, [view service status and endpoints](/distributed-cloud/hosted/docs/latest/appliance/application/ao-user/vertex-ai-api-status).\n\n### Python\n\nFollow these steps to use the OCR service from a Python\nscript to detect text in a file:\n\n1. [Install the latest version of the OCR client library](/distributed-cloud/hosted/docs/latest/appliance/application/ao-user/vertex-ai-install-libraries).\n\n2. [Set the required environment variables on a Python script](/distributed-cloud/hosted/docs/latest/appliance/application/ao-user/vai-set-up-ocr#set-env-var).\n\n3. [Authenticate your API request](/distributed-cloud/hosted/docs/latest/appliance/application/ao-user/vertex-ai-api-auth).\n\n4. Add the following code to the Python script you created:\n\n from google.cloud import vision\n import google.auth\n from google.auth.transport import requests\n from google.api_core.client_options import ClientOptions\n\n audience = \"https://\u003cvar translate=\"no\"\u003eENDPOINT\u003c/var\u003e:443\"\n api_endpoint=\"\u003cvar translate=\"no\"\u003eENDPOINT\u003c/var\u003e:443\"\n\n def vision_client(creds):\n opts = ClientOptions(api_endpoint=api_endpoint)\n return vision.https://cloud.google.com/python/docs/reference/vision/latest/google.cloud.vision_v1.services.image_annotator.ImageAnnotatorClient.html(credentials=creds, client_options=opts)\n\n def main():\n creds = None\n try:\n creds, project_id = google.auth.default()\n creds = creds.with_gdch_audience(audience)\n req = requests.Request()\n creds.refresh(req)\n print(\"Got token: \")\n print(creds.token)\n except Exception as e:\n print(\"Caught exception\" + str(e))\n raise e\n return creds\n\n def vision_func(creds):\n vc = vision_client(creds)\n input_config = {\"content\": \"\u003cvar translate=\"no\"\u003eBASE64_ENCODED_FILE\u003c/var\u003e\"}\n features = [{\"type_\": vision.https://cloud.google.com/python/docs/reference/vision/latest/google.cloud.vision_v1.types.Feature.html.Type.\u003cvar translate=\"no\"\u003e\u003cspan class=\"devsite-syntax-n\"\u003eFEATURE_TYPE\u003c/span\u003e\u003c/var\u003e}]\n # Each requests element corresponds to a single file. To annotate more\n # files, create a request element for each file and add it to\n # the array of requests\n req = {\"input_config\": input_config, \"features\": features}\n\n metadata = [(\"x-goog-user-project\", \"projects/\u003cvar translate=\"no\"\u003ePROJECT_ID\u003c/var\u003e\")]\n\n resp = vc.annotate_file(req,metadata=metadata)\n\n print(resp)\n\n if __name__==\"__main__\":\n creds = main()\n vision_func(creds)\n\n Replace the following:\n - \u003cvar translate=\"no\"\u003eENDPOINT\u003c/var\u003e: the OCR endpoint that you use for your organization. For more information, [view service status and endpoints](/distributed-cloud/hosted/docs/latest/appliance/application/ao-user/vertex-ai-api-status).\n - \u003cvar translate=\"no\"\u003eBASE64_ENCODED_FILE\u003c/var\u003e: the Base64 representation (ASCII string) of your file content. This string begins with characters that look similar to `/9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==`.\n - \u003cvar translate=\"no\"\u003eFEATURE_TYPE\u003c/var\u003e: the type of text detection you need from the file. Allowed values are `TEXT_DETECTION` or `DOCUMENT_TEXT_DETECTION`.\n - \u003cvar translate=\"no\"\u003ePROJECT_ID\u003c/var\u003e: your project ID.\n5. Save the Python script.\n\n6. Run the Python script to detect text in the file:\n\n python \u003cvar translate=\"no\"\u003e\u003cspan class=\"devsite-syntax-n\"\u003eSCRIPT_NAME\u003c/span\u003e\u003c/var\u003e\n\n Replace \u003cvar translate=\"no\"\u003eSCRIPT_NAME\u003c/var\u003e with the name you gave to your\n Python script, such as `vision.py`."]]