Esta página foi traduzida pela API Cloud Translation.

Detete texto em ficheiros

Esta página mostra como detetar texto em ficheiros através da API Optical Character Recognition (OCR) no dispositivo isolado do Google Distributed Cloud (GDC).

O serviço de OCR do Vertex AI no dispositivo isolado do GDC deteta texto em ficheiros PDF e TIFF através do método da API BatchAnnotateFiles.

Antes de começar

Antes de poder começar a usar a API OCR, tem de ter um projeto com a API OCR ativada e as credenciais adequadas. Também pode instalar bibliotecas cliente para ajudar a fazer chamadas para a API. Para mais informações, consulte o artigo Configure um projeto de reconhecimento de carateres.

Detete texto com pedidos inline

O método BatchAnnotateFiles deteta texto a partir de um lote de ficheiros PDF ou TIFF. Envia o ficheiro a partir do qual quer detetar texto diretamente como conteúdo no pedido da API. O sistema devolve o texto detetado resultante no formato JSON na resposta da API.

Tem de especificar valores para os campos no corpo JSON do seu pedido API. A tabela seguinte contém uma descrição dos campos do corpo do pedido que tem de fornecer quando usa o método da API BatchAnnotateFiles para os seus pedidos de deteção de texto:

Campos do corpo do pedido	Descrição do campo
`content`	Os ficheiros com texto a detetar. Fornece a representação Base64 (string ASCII) do conteúdo do ficheiro binário. Nota: só pode processar ficheiros armazenados localmente no ambiente do dispositivo isolado do GDC.
`mime_type`	O tipo de ficheiro de origem. Tem de defini-lo para um dos seguintes valores: `application/pdf` para ficheiros PDF `image/tiff` para ficheiros TIFF
`type`	O tipo de deteção de texto de que precisa no ficheiro. Especifique uma das duas funcionalidades de anotação: `TEXT_DETECTION` deteta e extrai texto de qualquer ficheiro. A resposta JSON inclui a string extraída, as palavras individuais e as respetivas caixas delimitadoras. `DOCUMENT_TEXT_DETECTION` também extrai texto de um ficheiro, mas o serviço otimiza a resposta para texto e documentos densos. O JSON inclui informações sobre páginas, blocos, parágrafos, palavras e quebras. Para mais informações sobre estas funcionalidades de anotação, consulte o artigo Funcionalidades de reconhecimento ótico de carateres.
`language_hints`	Opcional. Lista de idiomas a usar para a deteção de texto. O sistema interpreta um valor vazio para este campo como deteção automática de idioma. Não tem de definir o campo `language_hints` para idiomas baseados no alfabeto latino. Se souber o idioma do texto no ficheiro, a definição de uma sugestão melhora os resultados. Como funcionam as sugestões de idioma? O formato `language_hints` usa as seguintes diretrizes de formatação de etiquetas de idioma `BCP 47`: `language` ["-" `script`] ["-" `region`] ("-" `variant`) ("-" `extension`) ["-" `privateuse`]. Por exemplo, a sugestão de idioma "`en`-`t`-`i0`-`handwrit`" especifica o idioma inglês (`en`), o singleton de extensão de transformação (`t`), o código de extensão de transformação do motor do método de introdução (`i0`) e o código de transformação de escrita manual (`handwrit`). Isto indica aproximadamente que o idioma é "inglês transformado a partir de escrita manual". Não precisa de especificar um código de script porque o idioma "`en`" implica `Latn`. Para ver uma lista dos idiomas suportados, consulte o artigo Idiomas suportados.
`pages`	Opcional. O número de páginas do ficheiro a processar para deteção de texto. O número máximo de páginas que pode especificar é cinco. Se não especificar o número de páginas, o serviço processa as primeiras cinco páginas do ficheiro.

Faça um pedido de API inline

Faça um pedido à API pré-preparada de OCR através do método da API REST. Em alternativa, interaja com a API pré-preparada de OCR a partir de um script Python para detetar texto em ficheiros PDF ou TIFF.

Os exemplos seguintes mostram como detetar texto num ficheiro através de OCR:

REST

Siga estes passos para detetar texto em ficheiros através do método da API REST:

Guarde o seguinte ficheiro request.json para o corpo do pedido:
```
cat <<- EOF > request.json
{
  "requests": [
    {
      "input_config": {
        "content": BASE64_ENCODED_FILE,
        "mime_type": "application/pdf"
      },
      "features": [
        {
          "type": "FEATURE_TYPE"
        }
      ],
      "image_context": {
        "language_hints": [
          "LANGUAGE_HINT_1",
          "LANGUAGE_HINT_2",
          ...
        ]
      },
      "pages": []
    }
  ]
}
EOF
```
Substitua o seguinte:
- BASE64_ENCODED_FILE: a representação Base64 (string ASCII) do conteúdo do seu ficheiro binário. Esta string começa com carateres semelhantes a /9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
- FEATURE_TYPE: o tipo de deteção de texto de que precisa no ficheiro. Os valores permitidos são TEXT_DETECTION ou DOCUMENT_TEXT_DETECTION.
- LANGUAGE_HINT: as etiquetas de idioma BCP 47 a usar como sugestões de idioma para a deteção de texto, como en-t-i0-handwrit. Este campo é opcional e o sistema interpreta um valor vazio como deteção automática do idioma.
Obtenha um token de autenticação.
Faça o pedido:
curl
```
curl -X POST \
  -H "Authorization: Bearer TOKEN" \
  -H "x-goog-user-project: projects/PROJECT_ID" \
  -H "Content-Type: application/json; charset=utf-8" \
  -d @request.json \
  https://ENDPOINT/v1/files:annotate
```
Substitua o seguinte:
- TOKEN: o token de autenticação que obteve.
- PROJECT_ID: o ID do seu projeto.
- ENDPOINT: o ponto final de OCR que usa para a sua organização. Para mais informações, consulte o estado do serviço e os pontos finais.
Se estiver num ambiente de desenvolvimento, adicione a flag --cacert CERT_NAME ao comando de pedido curl. Substitua CERT_NAME pelo nome do ficheiro de certificado da CA, por exemplo, org-1-trust-bundle-ca.cert. Para mais informações, consulte o artigo Gere o ficheiro do certificado da AC do conjunto de confiança num ambiente de desenvolvimento.
PowerShell
```
$headers = @{
  "Authorization" = "Bearer TOKEN"
  "x-goog-user-project" = "projects/PROJECT_ID"
}

Invoke-WebRequest
  -Method POST
  -Headers $headers
  -ContentType: "application/json; charset=utf-8"
  -InFile request.json
  -Uri "ENDPOINT/v1/files:annotate" | Select-Object -Expand Content
```
Substitua o seguinte:
- TOKEN: o token de autenticação que obteve.
- ENDPOINT: o ponto final de OCR que usa para a sua organização. Para mais informações, consulte o estado do serviço e os pontos finais.

Python

Siga estes passos para usar o serviço de OCR a partir de um script Python para detetar texto num ficheiro:

Instale a versão mais recente da biblioteca cliente de OCR.
Defina as variáveis de ambiente necessárias num script Python.
Autentique o seu pedido de API.

Adicione o seguinte código ao script Python que criou:

from google.cloud import vision
import google.auth
from google.auth.transport import requests
from google.api_core.client_options import ClientOptions

audience = "https://ENDPOINT:443"
api_endpoint="ENDPOINT:443"

def vision_client(creds):
  opts = ClientOptions(api_endpoint=api_endpoint)
  return vision.ImageAnnotatorClient(credentials=creds, client_options=opts)

def main():
  creds = None
  try:
    creds, project_id = google.auth.default()
    creds = creds.with_gdch_audience(audience)
    req = requests.Request()
    creds.refresh(req)
    print("Got token: ")
    print(creds.token)
  except Exception as e:
    print("Caught exception" + str(e))
    raise e
  return creds

def vision_func(creds):
  vc = vision_client(creds)
  input_config = {"content": "BASE64_ENCODED_FILE"}
  features = [{"type_": vision.Feature.Type.FEATURE_TYPE}]
  # Each requests element corresponds to a single file. To annotate more
  # files, create a request element for each file and add it to
  # the array of requests
  req = {"input_config": input_config, "features": features}

  metadata = [("x-goog-user-project", "projects/PROJECT_ID")]

  resp = vc.annotate_file(req,metadata=metadata)

  print(resp)

if __name__=="__main__":
  creds = main()
  vision_func(creds)

Substitua o seguinte:

ENDPOINT: o ponto final de OCR que usa para a sua organização. Para mais informações, veja o estado do serviço e os pontos finais.
BASE64_ENCODED_FILE: a representação Base64 (string ASCII) do conteúdo do ficheiro. Esta string começa com carateres semelhantes a /9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
FEATURE_TYPE: o tipo de deteção de texto de que precisa no ficheiro. Os valores permitidos são TEXT_DETECTION ou DOCUMENT_TEXT_DETECTION.
PROJECT_ID: o ID do seu projeto.

Guarde o script Python.
Execute o script Python para detetar texto no ficheiro:
```
python SCRIPT_NAME
```
Substitua SCRIPT_NAME pelo nome que deu ao seu script Python, como vision.py.