Rilevare il testo nei file

Questa pagina mostra come rilevare il testo nei file utilizzando l'API Optical Character Recognition (OCR) sull'appliance air-gapped Google Distributed Cloud (GDC).

Il servizio OCR di Vertex AI sull'appliance GDC air-gapped rileva il testo nei file PDF e TIFF utilizzando il metodo API BatchAnnotateFiles.

Prima di iniziare

Prima di poter iniziare a utilizzare l'API OCR, devi disporre di un progetto con l'API OCR abilitata e delle credenziali appropriate. Puoi anche installare librerie client per facilitare le chiamate all'API. Per maggiori informazioni, consulta Configurare un progetto di riconoscimento dei caratteri.

Rilevare il testo con le richieste inline

Il metodo BatchAnnotateFiles rileva il testo da un batch di file PDF o TIFF. Invii il file da cui vuoi rilevare il testo direttamente come contenuto nella richiesta API. Il sistema restituisce il testo rilevato risultante in formato JSON nella risposta dell'API.

Devi specificare i valori per i campi nel corpo JSON della richiesta API. La tabella seguente contiene una descrizione dei campi del corpo della richiesta che devi fornire quando utilizzi il metodo API BatchAnnotateFiles per le richieste di rilevamento del testo:

Campi del corpo della richiesta Descrizione del campo
content I file con il testo da rilevare. Fornisci la rappresentazione Base64 (stringa ASCII) dei contenuti del file binario.
mime_type Il tipo di file di origine. Devi impostarlo su uno dei seguenti valori:
  • application/pdf per i file PDF
  • image/tiff per i file TIFF
type Il tipo di rilevamento del testo che ti serve dal file.

Specifica una delle due funzionalità di annotazione:
  • TEXT_DETECTION rileva ed estrae il testo da qualsiasi file. La risposta JSON include la stringa estratta, le singole parole e i relativi rettangoli di selezione.
  • DOCUMENT_TEXT_DETECTION estrae anche il testo da un file, ma il servizio ottimizza la risposta per testi e documenti densi. Il formato JSON include informazioni su pagina, blocco, paragrafo, parola e interruzione.
Per saperne di più su queste funzionalità di annotazione, consulta Funzionalità di riconoscimento ottico dei caratteri.
language_hints Facoltativo. Elenco delle lingue da utilizzare per il rilevamento del testo.

Il sistema interpreta un valore vuoto per questo campo come rilevamento automatico della lingua.

Non è necessario impostare il campo language_hints per le lingue basate sull'alfabeto latino.

Se conosci la lingua del testo nel file, l'impostazione di un suggerimento migliora i risultati.
pages Facoltativo. Il numero di pagine del file da elaborare per il rilevamento del testo.

Il numero massimo di pagine che puoi specificare è cinque. Se non specifichi il numero di pagine, il servizio elabora le prime cinque pagine del file.

Eseguire una richiesta API inline

Invia una richiesta all'API preaddestrata OCR utilizzando il metodo dell'API REST. In alternativa, interagisci con l'API preaddestrata OCR da uno script Python per rilevare il testo da file PDF o TIFF.

Gli esempi riportati di seguito mostrano come rilevare il testo in un file utilizzando l'OCR:

REST

Segui questi passaggi per rilevare il testo nei file utilizzando il metodo dell'API REST:

  1. Salva il seguente file request.json per il corpo della richiesta:

    cat <<- EOF > request.json
    {
      "requests": [
        {
          "input_config": {
            "content": BASE64_ENCODED_FILE,
            "mime_type": "application/pdf"
          },
          "features": [
            {
              "type": "FEATURE_TYPE"
            }
          ],
          "image_context": {
            "language_hints": [
              "LANGUAGE_HINT_1",
              "LANGUAGE_HINT_2",
              ...
            ]
          },
          "pages": []
        }
      ]
    }
    EOF
    

    Sostituisci quanto segue:

    • BASE64_ENCODED_FILE: la rappresentazione Base64 (stringa ASCII) dei contenuti del file binario. Questa stringa inizia con caratteri simili a /9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
    • FEATURE_TYPE: il tipo di rilevamento del testo che ti serve dal file. I valori consentiti sono TEXT_DETECTION o DOCUMENT_TEXT_DETECTION.
    • LANGUAGE_HINT: i tag di lingua BCP 47 da utilizzare come suggerimenti per la lingua per il rilevamento del testo, ad esempio en-t-i0-handwrit. Questo campo è facoltativo e il sistema interpreta un valore vuoto come rilevamento automatico della lingua.
  2. Ottenere un token di autenticazione.

  3. Effettua la richiesta:

    curl

    curl -X POST \
      -H "Authorization: Bearer TOKEN" \
      -H "x-goog-user-project: projects/PROJECT_ID" \
      -H "Content-Type: application/json; charset=utf-8" \
      -d @request.json \
      https://ENDPOINT/v1/files:annotate
    

    Sostituisci quanto segue:

    PowerShell

    $headers = @{
      "Authorization" = "Bearer TOKEN"
      "x-goog-user-project" = "projects/PROJECT_ID"
    }
    
    Invoke-WebRequest
      -Method POST
      -Headers $headers
      -ContentType: "application/json; charset=utf-8"
      -InFile request.json
      -Uri "ENDPOINT/v1/files:annotate" | Select-Object -Expand Content
    

    Sostituisci quanto segue:

Python

Segui questi passaggi per utilizzare il servizio OCR da uno script Python per rilevare il testo in un file:

  1. Installa l'ultima versione della libreria client OCR.

  2. Imposta le variabili di ambiente richieste in uno script Python.

  3. Autentica la richiesta API.

  4. Aggiungi il seguente codice allo script Python che hai creato:

    from google.cloud import vision
    import google.auth
    from google.auth.transport import requests
    from google.api_core.client_options import ClientOptions
    
    audience = "https://ENDPOINT:443"
    api_endpoint="ENDPOINT:443"
    
    def vision_client(creds):
      opts = ClientOptions(api_endpoint=api_endpoint)
      return vision.ImageAnnotatorClient(credentials=creds, client_options=opts)
    
    def main():
      creds = None
      try:
        creds, project_id = google.auth.default()
        creds = creds.with_gdch_audience(audience)
        req = requests.Request()
        creds.refresh(req)
        print("Got token: ")
        print(creds.token)
      except Exception as e:
        print("Caught exception" + str(e))
        raise e
      return creds
    
    def vision_func(creds):
      vc = vision_client(creds)
      input_config = {"content": "BASE64_ENCODED_FILE"}
      features = [{"type_": vision.Feature.Type.FEATURE_TYPE}]
      # Each requests element corresponds to a single file. To annotate more
      # files, create a request element for each file and add it to
      # the array of requests
      req = {"input_config": input_config, "features": features}
    
      metadata = [("x-goog-user-project", "projects/PROJECT_ID")]
    
      resp = vc.annotate_file(req,metadata=metadata)
    
      print(resp)
    
    if __name__=="__main__":
      creds = main()
      vision_func(creds)
    

    Sostituisci quanto segue:

    • ENDPOINT: l'endpoint OCR che utilizzi per la tua organizzazione. Per saperne di più, visualizza lo stato e gli endpoint del servizio.
    • BASE64_ENCODED_FILE: la rappresentazione Base64 (stringa ASCII) dei contenuti del file. Questa stringa inizia con caratteri simili a /9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
    • FEATURE_TYPE: il tipo di rilevamento del testo che ti serve dal file. I valori consentiti sono TEXT_DETECTION o DOCUMENT_TEXT_DETECTION.
    • PROJECT_ID: il tuo ID progetto.
  5. Salva lo script Python.

  6. Esegui lo script Python per rilevare il testo nel file:

    python SCRIPT_NAME
    

    Sostituisci SCRIPT_NAME con il nome che hai assegnato allo script Python, ad esempio vision.py.