Questa pagina è stata tradotta dall'API Cloud Translation.

Rilevamento del testo nelle immagini

Questa pagina mostra come rilevare il testo delle immagini utilizzando l'API Optical Character Recognition (OCR) sull'appliance isolata di Google Distributed Cloud (GDC).

Il servizio OCR di Vertex AI sull'appliance GDC air-gapped rileva il testo nelle immagini utilizzando il metodo API BatchAnnotateImages. Il servizio supporta i file JPEG e PNG per le immagini.

Prima di iniziare

Prima di poter iniziare a utilizzare l'API OCR, devi disporre di un progetto con l'API OCR abilitata e delle credenziali appropriate. Puoi anche installare librerie client per facilitare le chiamate all'API. Per maggiori informazioni, consulta Configurare un progetto di riconoscimento dei caratteri.

Rilevare il testo dai file JPEG e PNG

Il metodo BatchAnnotateImages rileva il testo da un batch di file JPEG o PNG. Invii il file da cui vuoi rilevare il testo direttamente come contenuto nella richiesta API. Il sistema restituisce il testo rilevato risultante in formato JSON nella risposta dell'API.

Devi specificare i valori per i campi nel corpo JSON della richiesta API. La tabella seguente contiene una descrizione dei campi del corpo della richiesta che devi fornire quando utilizzi il metodo API BatchAnnotateImages per le richieste di rilevamento del testo:

Campi del corpo della richiesta	Descrizione del campo
`content`	Le immagini con il testo da rilevare. Fornisci la rappresentazione Base64 (stringa ASCII) dei dati immagine binari. Nota: puoi elaborare solo le immagini archiviate localmente nell'ambiente dell'appliance GDC air-gapped.
`type`	Il tipo di rilevamento del testo che ti serve dall'immagine. Specifica una delle due funzionalità di annotazione: `TEXT_DETECTION` rileva ed estrae il testo da qualsiasi immagine. La risposta JSON include la stringa estratta, le singole parole e i relativi rettangoli di selezione. `DOCUMENT_TEXT_DETECTION` estrae anche il testo da un'immagine, ma il servizio ottimizza la risposta per testo e documenti densi. Il formato JSON include informazioni su pagina, blocco, paragrafo, parola e interruzione. Per saperne di più su queste funzionalità di annotazione, consulta Funzionalità di riconoscimento ottico dei caratteri.
`language_hints`	Facoltativo. Elenco delle lingue da utilizzare per il rilevamento del testo. Il sistema interpreta un valore vuoto per questo campo come rilevamento automatico della lingua. Non è necessario impostare il campo `language_hints` per le lingue basate sull'alfabeto latino. Se conosci la lingua del testo nell'immagine, l'impostazione di un suggerimento migliora i risultati. Come funzionano i suggerimenti per la lingua? Il formato `language_hints` utilizza le seguenti linee guida per la formattazione del tag di lingua `BCP 47`: `language` ["-" `script`] ["-" `region`] ("-" `variant`) ("-" `extension`) ["-" `privateuse`]. Ad esempio, il suggerimento per la lingua "`en`-`t`-`i0`-`handwrit`" specifica la lingua inglese (`en`), l'estensione di trasformazione singleton (`t`), il codice dell'estensione di trasformazione del motore del metodo di input (`i0`) e il codice di trasformazione della scrittura a mano (`handwrit`). In sostanza, la lingua è "inglese trasformato dalla scrittura a mano". Non è necessario specificare un codice script perché la lingua "`en`" implica `Latn`. Per un elenco delle lingue supportate, consulta Lingue supportate.

Esegui una richiesta API

Invia una richiesta all'API preaddestrata OCR utilizzando il metodo dell'API REST. In caso contrario, interagisci con l'API preaddestrata OCR da uno script Python per rilevare il testo da file JPEG o PNG.

Gli esempi riportati di seguito mostrano come rilevare il testo in un'immagine utilizzando l'OCR:

REST

Segui questi passaggi per rilevare il testo nelle immagini utilizzando il metodo dell'API REST:

Salva il seguente file request.json per il corpo della richiesta:
```
cat <<- EOF > request.json
{
  "requests": [
    {
      "image": {
        "content": BASE64_ENCODED_IMAGE
      },
      "features": [
        {
          "type": "FEATURE_TYPE"
        }
      ],
      "image_context": {
        "language_hints": [
          "LANGUAGE_HINT_1",
          "LANGUAGE_HINT_2",
          ...
        ]
      }
    }
  ]
}
EOF
```
Sostituisci quanto segue:
- BASE64_ENCODED_IMAGE: la rappresentazione Base64 (stringa ASCII) dei dati binari dell'immagine. Questa stringa inizia con caratteri simili a /9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
- FEATURE_TYPE: il tipo di rilevamento del testo che ti serve dall'immagine. I valori consentiti sono TEXT_DETECTION o DOCUMENT_TEXT_DETECTION.
- LANGUAGE_HINT: i tag di lingua BCP 47 da utilizzare come suggerimenti per la lingua per il rilevamento del testo, ad esempio en-t-i0-handwrit. Questo campo è facoltativo e il sistema interpreta un valore vuoto come rilevamento automatico della lingua.
Ottenere un token di autenticazione.
Effettua la richiesta:
curl
```
curl -X POST \
  -H "Authorization: Bearer TOKEN" \
  -H "x-goog-user-project: projects/PROJECT_ID" \
  -H "Content-Type: application/json; charset=utf-8" \
  -d @request.json \
  https://ENDPOINT/v1/images:annotate
```
Sostituisci quanto segue:
- TOKEN: il token di autenticazione che hai ottenuto.
- PROJECT_ID: il tuo ID progetto.
- ENDPOINT: l'endpoint OCR che utilizzi per la tua organizzazione. Per saperne di più, visualizza lo stato del servizio e gli endpoint.
Se ti trovi in un ambiente di sviluppo, aggiungi il flag --cacert CERT_NAME al comando di richiesta curl. Sostituisci CERT_NAME con il nome del file del certificato CA, ad esempio org-1-trust-bundle-ca.cert. Per ulteriori informazioni, vedi Generare il file del certificato CA del bundle di attendibilità in un ambiente di sviluppo.
PowerShell
```
$headers = @{
  "Authorization" = "Bearer TOKEN"
  "x-goog-user-project" = "projects/PROJECT_ID"
}

Invoke-WebRequest
  -Method POST
  -Headers $headers
  -ContentType: "application/json; charset=utf-8"
  -InFile request.json
  -Uri "ENDPOINT/v1/images:annotate" | Select-Object -Expand Content
```
Sostituisci quanto segue:
- TOKEN: il token di autenticazione che hai ottenuto.
- ENDPOINT: l'endpoint OCR che utilizzi per la tua organizzazione. Per saperne di più, visualizza lo stato del servizio e gli endpoint.

Python

Segui questi passaggi per utilizzare il servizio OCR da uno script Python per rilevare il testo in un'immagine:

Installa l'ultima versione della libreria client OCR.
Imposta le variabili di ambiente richieste in uno script Python.
Autentica la richiesta API.

Aggiungi il seguente codice allo script Python che hai creato:

from google.cloud import vision
import google.auth
from google.auth.transport import requests
from google.api_core.client_options import ClientOptions

audience = "https://ENDPOINT:443"
api_endpoint="ENDPOINT:443"

def vision_client(creds):
  opts = ClientOptions(api_endpoint=api_endpoint)
  return vision.ImageAnnotatorClient(credentials=creds, client_options=opts)

def main():
  creds = None
  try:
    creds, project_id = google.auth.default()
    creds = creds.with_gdch_audience(audience)
    req = requests.Request()
    creds.refresh(req)
    print("Got token: ")
    print(creds.token)
  except Exception as e:
    print("Caught exception" + str(e))
    raise e
  return creds

def vision_func(creds):
  vc = vision_client(creds)
  image = {"content": "BASE64_ENCODED_IMAGE"}
  features = [{"type_": vision.Feature.Type.FEATURE_TYPE}]
  # Each requests element corresponds to a single image. To annotate more
  # images, create a request element for each image and add it to
  # the array of requests
  req = {"image": image, "features": features}

  metadata = [("x-goog-user-project", "projects/PROJECT_ID")]

  resp = vc.annotate_image(req,metadata=metadata)

  print(resp)

if __name__=="__main__":
  creds = main()
  vision_func(creds)

Sostituisci quanto segue:

ENDPOINT: l'endpoint OCR che utilizzi per la tua organizzazione. Per saperne di più, visualizza lo stato e gli endpoint del servizio.
BASE64_ENCODED_IMAGE: la rappresentazione Base64 (stringa ASCII) dei dati binari dell'immagine. Questa stringa inizia con caratteri simili a /9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
FEATURE_TYPE: il tipo di rilevamento del testo che ti serve dall'immagine. I valori consentiti sono TEXT_DETECTION o DOCUMENT_TEXT_DETECTION.
PROJECT_ID: il tuo ID progetto.

Salva lo script Python.
Esegui lo script Python per rilevare il testo nell'immagine:
```
python SCRIPT_NAME
```
Sostituisci SCRIPT_NAME con il nome che hai assegnato allo script Python, ad esempio vision.py.