瞭解字元辨識功能

光學字元辨識 (OCR) 是 Google Distributed Cloud (GDC) 氣隙環境中，三種 Vertex AI 預先訓練 API 之一。OCR 服務可偵測各種檔案類型中的文字，例如圖片、文件檔案和手寫文字。

OCR 提供下列方法，可在 Distributed Cloud 中辨識文字：

方法	說明
`BatchAnnotateImages`	從內嵌要求提供的一批 JPEG 或 PNG 圖片中偵測文字。
`BatchAnnotateFiles`	偵測內嵌要求中提供的批次 PDF 或 TIFF 檔案文字。
`AsyncBatchAnnotateFiles`	偵測儲存空間 bucket 中一批 PDF 或 TIFF 檔案的文字，以供離線要求使用。

進一步瞭解文字辨識功能支援的語言。

光學字元辨識功能

OCR API 可偵測及擷取圖片中的文字。下列兩種註解功能支援光學字元辨識：

TEXT_DETECTION 可偵測並擷取任何圖片中的文字。舉例來說，相片可能含有街道或交通標誌。OCR 服務會傳回 JSON 檔案，其中包含擷取的字串、個別字詞及其周框。

圖 1. 路標照片，OCR API 會偵測文字及其定界框。
DOCUMENT_TEXT_DETECTION 也會從圖片中擷取文字，但這項服務會針對密集文字和文件最佳化回覆內容。舉例來說，掃描的文字圖片可能包含多個段落和標題。OCR 服務會傳回 JSON 檔案，其中包含頁面、區塊、段落、字詞和換行資訊。

圖 2：掃描的圖片含有打字文字，OCR API 會偵測字詞、頁面和段落等資訊。

圖 3：手寫文字圖片。OCR API 會偵測並擷取這些圖片中的文字。如需支援手寫辨識功能的手寫文字清單，請參閱「手寫文字」。

手寫數字

圖 3：OCR API 偵測到文字的手寫圖片。

BatchAnnotateImages 和 BatchAnnotateFiles API 方法在每個批次呼叫中僅支援單一要求。

下表列出 Distributed Cloud 中 OCR 服務的目前限制。

如果提交的 OCR API 檔案超過頁數上限或檔案大小上限，系統會傳回錯誤。如果提交的檔案超過圖片大小上限，系統會縮小至 2,000 萬像素。

OCR 預先訓練 API 可偵測並轉錄下列檔案類型中的文字：

您必須在本機的 Distributed Cloud 環境中儲存檔案。您無法存取 Cloud Storage 中託管的檔案，或公開可用的檔案以進行文字偵測。