O reconhecimento ótico de carateres (OCR) é uma das três APIs pré-treinadas do Vertex AI no Google Distributed Cloud (GDC) air-gapped. O serviço de OCR deteta texto em vários tipos de ficheiros, como imagens, ficheiros de documentos e texto escrito à mão.
O OCR oferece os seguintes métodos disponíveis no Distributed Cloud para reconhecer texto:
| Método | Descrição | 
|---|---|
| BatchAnnotateImages | Detetar texto a partir de um lote de imagens JPEG ou PNG fornecidas num pedido inline. | 
| BatchAnnotateFiles | Detetar texto a partir de um lote de ficheiros PDF ou TIFF fornecidos num pedido inline. | 
| AsyncBatchAnnotateFiles | Detetar texto a partir de um lote de ficheiros PDF ou TIFF num contentor de armazenamento para pedidos offline. | 
Saiba mais sobre os idiomas suportados detetados pela funcionalidade de reconhecimento de texto.
Funcionalidades de reconhecimento ótico de carateres
A API OCR pode detetar e extrair texto de imagens. As duas funcionalidades de anotação seguintes suportam o reconhecimento ótico de carateres:
- O - TEXT_DETECTIONdeteta e extrai texto de qualquer imagem. Por exemplo, uma fotografia pode conter uma rua ou um sinal de trânsito. O serviço de OCR devolve um ficheiro JSON com a string extraída, palavras individuais e as respetivas caixas delimitadoras. - Figura 1. Fotografia de um sinal de trânsito onde a API OCR deteta palavras e as respetivas caixas delimitadoras. 
- DOCUMENT_TEXT_DETECTIONtambém extrai texto de uma imagem, mas o serviço otimiza a resposta para texto denso e documentos. Por exemplo, uma imagem digitalizada de texto escrito pode conter vários parágrafos e títulos. O serviço de OCR devolve um ficheiro JSON com informações de página, bloco, parágrafo, palavra e quebra. - Figura 2. Imagem digitalizada de texto escrito, em que a API OCR deteta informações como palavras, páginas e parágrafos. 
Texto manuscrito
A Figura 3 é uma imagem de texto manuscrito. A API OCR deteta e extrai texto destas imagens. Para ver uma lista de scripts de escrita manual que suportam o reconhecimento de escrita manual, consulte Scripts de escrita manual.

Figura 3. Imagem de escrita manual onde a API OCR deteta texto.
Limites do reconhecimento ótico de carateres
Os métodos da API BatchAnnotateImages e BatchAnnotateFiles só suportam um pedido por chamada em lote.
A tabela seguinte indica os limites atuais do serviço de OCR na Distributed Cloud.
| Limite de ficheiros para OCR | Valor | 
|---|---|
| Número máximo de páginas | Cinco | 
| Tamanho máximo do ficheiro | 20 MB | 
| Tamanho máximo da imagem | 20 milhões de píxeis (comprimento x largura) | 
Os ficheiros enviados para a API OCR que excedem o número máximo de páginas ou o tamanho máximo do ficheiro devolvem um erro. Os ficheiros enviados que excedam o tamanho máximo da imagem são reduzidos para 20 milhões de píxeis.
Tipos de ficheiros suportados para OCR
A API pré-treinada de OCR deteta e transcreve texto dos seguintes tipos de ficheiros:
- TIFF
- JPG
- PNG
Tem de armazenar os ficheiros localmente no seu ambiente de nuvem distribuída. Não pode aceder a ficheiros alojados no Cloud Storage nem a ficheiros disponíveis publicamente para deteção de texto.