了解字符识别功能

光学字符识别 (OCR) 是 Google Distributed Cloud (GDC) 气隙环境中的三项 Vertex AI 预训练 API 之一。OCR 服务可检测各种文件类型（例如图片、文档文件和手写文本）中的文本。

OCR 提供以下方法，可在 Distributed Cloud 中识别文本：

方法	说明
`BatchAnnotateImages`	检测内嵌请求中提供的一批 JPEG 或 PNG 图片中的文本。
`BatchAnnotateFiles`	检测内嵌请求中提供的一批 PDF 或 TIFF 文件中的文本。
`AsyncBatchAnnotateFiles`	检测存储桶中一批 PDF 或 TIFF 文件中的文本，以用于离线请求。

详细了解文字识别功能检测到的支持的语言。

光学字符识别功能

OCR API 可以检测并提取图片中的文本。以下两种注解功能支持光学字符识别：

TEXT_DETECTION 可检测并提取任何图片中的文本。例如，某张照片可能包含街道标志或交通标志。OCR 服务会返回一个 JSON 文件，其中包含提取的字符串、单个字词及其边界框。

图 1. 道路标志照片，其中 OCR API 检测到字词及其边界框。
DOCUMENT_TEXT_DETECTION 也可提取图片中的文本，但该服务会针对密集文本和文档优化响应。例如，扫描的文本图像可能包含多个段落和标题。OCR 服务会返回一个 JSON 文件，其中包含页面、文本块、段落、字词和换行信息。

图 2. 包含打印文本的扫描图片，OCR API 可检测其中的字词、页面和段落等信息。

图 3 是一张手写文字的图片。OCR API 会检测并提取这些图片中的文本。如需查看支持手写识别的手写文字列表，请参阅手写文字。

手写数字

图 3.OCR API 检测到文本的手写图片。

BatchAnnotateImages 和 BatchAnnotateFiles API 方法仅支持每个批次调用一个请求。

下表列出了分布式云中 OCR 服务的当前限额。

如果为 OCR API 提交的文件超出最大页数或文件大小上限，系统会返回错误。提交的文件如果超出最大图片尺寸，系统会将其缩小到 2000 万像素。

OCR 预训练 API 可检测并转写以下文件类型中的文本：

您必须将文件存储在 Distributed Cloud 环境中的本地。您无法访问 Cloud Storage 中托管的文件或可公开访问的文件以进行文本检测。