Saiba mais sobre os recursos de reconhecimento de caracteres
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O reconhecimento óptico de caracteres (OCR) é uma das três APIs pré-treinadas da Vertex AI no Google Distributed Cloud (GDC) isolado por air-gap. O serviço de OCR detecta texto em vários tipos de arquivos, como imagens, arquivos de documentos e texto manuscrito.
O OCR oferece os seguintes métodos disponíveis no
Distributed Cloud para reconhecer texto:
Detecta texto de um lote de arquivos PDF ou TIFF em um bucket de armazenamento para solicitações off-line.
Saiba mais sobre os idiomas compatíveis
detectados pelo recurso de reconhecimento de texto.
Recursos de reconhecimento óptico de caracteres
A API OCR detecta e extrai texto de imagens. Os dois recursos de anotação a seguir são compatíveis com o reconhecimento óptico de caracteres:
TEXT_DETECTION detecta e extrai texto de qualquer imagem. Por exemplo, uma
foto pode ter uma placa de rua ou de trânsito. O serviço de OCR
retorna um arquivo JSON com a string extraída, palavras individuais e
caixas delimitadoras.
Figura 1. Foto de uma placa de trânsito em que a API OCR detecta palavras e suas caixas delimitadoras.
DOCUMENT_TEXT_DETECTION também extrai texto de uma imagem, mas o serviço
otimiza a resposta para textos e documentos densos. Por exemplo, uma imagem digitalizada de texto digitado pode conter vários parágrafos e títulos. O serviço de
OCR retorna um arquivo JSON com informações de página, bloco, parágrafo,
palavra e quebra de linha.
Figura 2. Imagem digitalizada de texto digitado em que a API OCR detecta informações como palavras, páginas e parágrafos.
Texto escrito à mão
A Figura 3 é uma imagem de texto escrito à mão. A API OCR detecta e extrai texto dessas imagens. Para uma lista de scripts de escrita manual que
são compatíveis com o reconhecimento de escrita manual, consulte
Scripts de escrita manual.
Figura 3. Imagem de escrita à mão em que a API OCR detecta texto.
Limites do reconhecimento óptico de caracteres
Os métodos de API BatchAnnotateImages e BatchAnnotateFiles só aceitam uma
solicitação por chamada em lote.
A tabela a seguir lista os limites atuais do serviço de OCR
no Distributed Cloud.
Limite de arquivos para OCR
Valor
Número máximo de páginas
Cinco
Tamanhos máximos dos arquivos
20 MB
Tamanho máximo da imagem
20 milhões de pixels (comprimento x largura)
Os arquivos enviados para a API OCR que excedem o número máximo de páginas ou o tamanho máximo do arquivo retornam um erro. Os arquivos enviados que excedem o tamanho máximo da imagem são reduzidos para 20 milhões de pixels.
Tipos de arquivos compatíveis com OCR
A API pré-treinada de OCR detecta e transcreve
texto dos seguintes tipos de arquivos:
PDF
TIFF
JPG
PNG
Você precisa armazenar os arquivos localmente no ambiente do Distributed Cloud. Não é possível acessar arquivos hospedados no Cloud Storage ou arquivos disponíveis publicamente para detecção de texto.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-04 UTC."],[[["\u003cp\u003eOptical Character Recognition (OCR) is a pre-trained Vertex AI API on Google Distributed Cloud (GDC) air-gapped that can detect text in images, document files, and handwritten text.\u003c/p\u003e\n"],["\u003cp\u003eThe OCR service offers three methods: \u003ccode\u003eBatchAnnotateImages\u003c/code\u003e for detecting text from JPEG or PNG images, \u003ccode\u003eBatchAnnotateFiles\u003c/code\u003e for PDF or TIFF files in inline requests, and \u003ccode\u003eAsyncBatchAnnotateFiles\u003c/code\u003e for offline text detection from PDF or TIFF files in storage buckets.\u003c/p\u003e\n"],["\u003cp\u003eThe OCR API supports two main features: \u003ccode\u003eTEXT_DETECTION\u003c/code\u003e to extract text from any image and \u003ccode\u003eDOCUMENT_TEXT_DETECTION\u003c/code\u003e optimized for dense text and documents.\u003c/p\u003e\n"],["\u003cp\u003eThe OCR API also supports handwritten text detection and extraction, with specific supported handwriting scripts available for recognition.\u003c/p\u003e\n"],["\u003cp\u003eOCR has limitations such as a maximum of five pages, a 20 MB file size limit, and a maximum image size of 20 million pixels, and it supports file types like PDF, TIFF, JPG, and PNG, stored locally in the Distributed Cloud environment.\u003c/p\u003e\n"]]],[],null,["# Learn about character recognition features\n\nOptical Character Recognition (OCR) is one of the three Vertex AI\npre-trained APIs on Google Distributed Cloud (GDC) air-gapped. The OCR\nservice detects text in [various file types](#supported-file-types), such as\nimages, document files, and handwritten text.\n\nOCR offers the following methods available in\nDistributed Cloud to recognize text:\n\n| **Note:** The `BatchAnnotateImages` and `BatchAnnotateFiles` API methods only support a single request per batch call.\n\nLearn more about the [supported languages](/distributed-cloud/hosted/docs/latest/gdch/application/ao-user/vertex-ai-ocr-supported-langs)\ndetected by the text recognition feature.\n\nOptical character recognition features\n--------------------------------------\n\nThe OCR API can detect and extract text from images. The\nfollowing two annotation features support optical character recognition:\n\n- `TEXT_DETECTION` detects and extracts text from any image. For example, a\n photograph might contain a street or traffic sign. The OCR\n service returns a JSON file with the extracted string, individual words, and\n their bounding boxes.\n\n **Figure 1.** Road sign photograph where the OCR API detects\n words and their bounding boxes.\n- `DOCUMENT_TEXT_DETECTION` also extracts text from an image, but the service\n optimizes the response for dense text and documents. For example, a scanned\n image of typed text might contain several paragraphs and headings. The\n OCR service returns a JSON file with page, block, paragraph,\n word, and break information.\n\n **Figure 2.** Scanned image of typed text where the OCR API detects information such as words, pages, and paragraphs.\n\nHandwritten text\n----------------\n\nFigure 3 is an image of handwritten text. The OCR API detects and\nextracts text from these images. For a list of handwriting scripts that\nsupport handwriting recognition, see\n[Handwriting scripts](/distributed-cloud/hosted/docs/latest/gdch/application/ao-user/vertex-ai-ocr-supported-langs#handwriting-scripts).\n\n**Figure 3.** Handwriting image where the OCR API detects text.\n\nOptical character recognition limits\n------------------------------------\n\nThe `BatchAnnotateImages` and `BatchAnnotateFiles` API methods only support a\nsingle request per batch call.\n\nThe following table lists the current limits of the OCR service\nin Distributed Cloud.\n\nSubmitted files for the OCR API that exceed the maximum number of\npages or the maximum file size return an error. Submitted files that exceed the\nmaximum image size are downsized to 20 million pixels.\n\nSupported file types for OCR\n----------------------------\n\nThe OCR pre-trained API detects and transcribes\ntext from the following file types:\n\n- PDF\n- TIFF\n- JPG\n- PNG\n\nYou must store the files locally in your Distributed Cloud environment. You\ncan't access files hosted in Cloud Storage or publicly available files for\ntext detection."]]