瞭解字元辨識功能

光學字元辨識 (OCR) 是 Google Distributed Cloud (GDC) 氣隙環境中,三種 Vertex AI 預先訓練 API 之一。OCR 服務可偵測各種檔案類型中的文字,例如圖片、文件檔案和手寫文字。

OCR 提供下列方法,可在 Distributed Cloud 中辨識文字:

方法 說明
BatchAnnotateImages 從內嵌要求提供的一批 JPEG 或 PNG 圖片中偵測文字。
BatchAnnotateFiles 偵測內嵌要求中提供的批次 PDF 或 TIFF 檔案文字。
AsyncBatchAnnotateFiles 偵測儲存空間 bucket 中一批 PDF 或 TIFF 檔案的文字,以供離線要求使用。

進一步瞭解文字辨識功能支援的語言

光學字元辨識功能

OCR API 可偵測及擷取圖片中的文字。下列兩種註解功能支援光學字元辨識:

  • TEXT_DETECTION 可偵測並擷取任何圖片中的文字。舉例來說,相片可能含有街道或交通標誌。OCR 服務會傳回 JSON 檔案,其中包含擷取的字串、個別字詞及其周框。

    包含個別字詞和文字偵測邊界框的路標

    圖 1. 路標照片,OCR API 會偵測文字及其定界框。

  • DOCUMENT_TEXT_DETECTION 也會從圖片中擷取文字,但這項服務會針對密集文字和文件最佳化回覆內容。舉例來說,掃描的文字圖片可能包含多個段落和標題。OCR 服務會傳回 JSON 檔案,其中包含頁面、區塊、段落、字詞和換行資訊。

    掃描的文字圖片,附有大量註解

    圖 2:掃描的圖片含有打字文字,OCR API 會偵測字詞、頁面和段落等資訊。

手寫文字

圖 3:手寫文字圖片。OCR API 會偵測並擷取這些圖片中的文字。如需支援手寫辨識功能的手寫文字清單,請參閱「手寫文字」。

手寫數字

圖 3:OCR API 偵測到文字的手寫圖片。

光學字元辨識限制

BatchAnnotateImagesBatchAnnotateFiles API 方法在每個批次呼叫中僅支援單一要求。

下表列出 Distributed Cloud 中 OCR 服務的目前限制。

OCR 檔案限制
頁數上限
檔案大小上限 20 MB
圖片大小上限 2,000 萬像素 (長度 x 寬度)

如果提交的 OCR API 檔案超過頁數上限或檔案大小上限,系統會傳回錯誤。如果提交的檔案超過圖片大小上限,系統會縮小至 2,000 萬像素。

支援 OCR 的檔案類型

OCR 預先訓練 API 可偵測並轉錄下列檔案類型中的文字:

  • PDF
  • TIFF
  • JPG
  • PNG

您必須在本機的 Distributed Cloud 環境中儲存檔案。您無法存取 Cloud Storage 中託管的檔案,或公開可用的檔案以進行文字偵測。