光学字符识别 (OCR) 是 Google Distributed Cloud (GDC) 气隙环境中的三项 Vertex AI 预训练 API 之一。OCR 服务可检测各种文件类型(例如图片、文档文件和手写文本)中的文本。
OCR 提供以下方法,可在 Distributed Cloud 中识别文本:
方法 | 说明 |
---|---|
BatchAnnotateImages |
检测内嵌请求中提供的一批 JPEG 或 PNG 图片中的文本。 |
BatchAnnotateFiles |
检测内嵌请求中提供的一批 PDF 或 TIFF 文件中的文本。 |
AsyncBatchAnnotateFiles |
检测存储桶中一批 PDF 或 TIFF 文件中的文本,以用于离线请求。 |
详细了解文字识别功能检测到的支持的语言。
光学字符识别功能
OCR API 可以检测并提取图片中的文本。以下两种注解功能支持光学字符识别:
TEXT_DETECTION
可检测并提取任何图片中的文本。例如,某张照片可能包含街道标志或交通标志。OCR 服务会返回一个 JSON 文件,其中包含提取的字符串、单个字词及其边界框。图 1. 道路标志照片,其中 OCR API 检测到字词及其边界框。
DOCUMENT_TEXT_DETECTION
也可提取图片中的文本,但该服务会针对密集文本和文档优化响应。例如,扫描的文本图像可能包含多个段落和标题。OCR 服务会返回一个 JSON 文件,其中包含页面、文本块、段落、字词和换行信息。图 2. 包含打印文本的扫描图片,OCR API 可检测其中的字词、页面和段落等信息。
手写文字
图 3 是一张手写文字的图片。OCR API 会检测并提取这些图片中的文本。如需查看支持手写识别的手写文字列表,请参阅手写文字。
图 3.OCR API 检测到文本的手写图片。
光学字符识别限制
BatchAnnotateImages
和 BatchAnnotateFiles
API 方法仅支持每个批次调用一个请求。
下表列出了分布式云中 OCR 服务的当前限额。
OCR 的文件数量限制 | 值 |
---|---|
最大页数 | 5 |
文件大小上限 | 20 MB |
图片大小上限 | 2,000 万像素(长 x 宽) |
如果为 OCR API 提交的文件超出最大页数或文件大小上限,系统会返回错误。提交的文件如果超出最大图片尺寸,系统会将其缩小到 2000 万像素。
支持的 OCR 文件类型
OCR 预训练 API 可检测并转写以下文件类型中的文本:
- TIFF
- JPG
- PNG
您必须将文件存储在 Distributed Cloud 环境中的本地。您无法访问 Cloud Storage 中托管的文件或可公开访问的文件以进行文本检测。