Optical Character Recognition (OCR) is a foundational technology behind the conversion of typed, handwritten or printed text from images into machine-encoded text.

What types of OCR does Google Cloud offer?

Google Cloud offers two types of OCR: OCR for documents and OCR for images and videos. Document AI is a document understanding platform optimized for document processing (powered by GenAI). Cloud Vision is commonly used to detect text, handwriting, and a wide range of objects from images and videos.

How does OCR work at Google Cloud?

Google Cloud powers OCR with best-in-class AI. It goes beyond traditional text recognition by understanding, organizing, and enriching data to generate business-ready insights. You can use the tools as a unified suite (e.g., Document AI) or call relevant APIs directly.

How Google Cloud AI and OCR work together?

All OCR solutions give you access to pre-trained ML models that you can deploy immediately or uptrain for specific needs. You can also train custom models using AutoML without needing machine learning expertise.

Which OCR solution is right for me?

If you want to analyze a document or build a processing pipeline, use Document AI. If you want to analyze and process images, use Cloud Vision. Both APIs are free to try with a Google Cloud account.

歡迎在 Gemini Enterprise Agent Platform 試用 Gemini 3，體驗 Google 最擅長推論、程式設計和多模態解讀的模型

OCR (光學字元辨識)

採用世界級 Google Cloud AI 技術的光學字元辨識 (OCR) 解決方案

輕鬆擷取圖片和文件中的文字與資料、將非結構化內容轉換為符合企業需求的結構化資料，並取得寶貴的洞察資訊。

您可以透過 API 將 OCR 功能整合至應用程式。

新客戶註冊時可以獲得價值 $300 美元的免費抵免額，用於申請文件摘要製作 OCR 解決方案。

總覽

什麼是 OCR？

光學字元辨識 (OCR) 是一項基礎技術，可將圖片中的電腦輸入、手寫或印刷文字轉換成機器編碼文字。

Google Cloud 提供哪些類型的 OCR 解決方案？

Google Cloud 提供兩種 OCR 解決方案，分別適用於文件和圖片/影片。

雖然兩者都採用相同的基礎技術，但 Document AI 經過最佳化調整，是最適合處理文件的文件解讀平台，並具備採用生成式 AI 的自訂擷取器，不必選用專用處理器，就能以更準確高效的方式處理一般和特定領域文件。

Cloud Vision 通常會用來偵測圖片和影片中的文字、手寫內容和各種物體。

OCR 在 Google Cloud 上的運作方式為何？

Google Cloud 採用業界一流的 AI 技術來支援 OCR。這項解決方案不僅能識別傳統文字內容，還可以解讀、整理並充實資料，進而產生符合企業需求的洞察資訊。

您可自由選擇使用整合式 OCR 工具套件 (例如 Document AI)，以簡便的方式提高效率，也可以直接在 Google Cloud 控制台中呼叫相關 API，將 OCR 功能整合至自家應用程式。

影片

什麼是 Document AI？

4:36

Google Cloud AI 與 OCR 如何搭配運作？

上述所有 OCR 解決方案都可讓您透過 API 立即部署預先訓練的機器學習模型，或是依據特定需求展開進階訓練，藉此提高準確度。

您還可以利用 AutoML 訓練專屬自訂模型，即使不具備機器學習專業知識也沒問題。

請參閱 AutoML 說明文件，瞭解如何建構自訂機器學習模型。

影片

使用 AutoML 建構及訓練機器學習模型的時機和方式

2:11

我適合使用哪一種 OCR 解決方案？

如想分析文件或建立自動化文件處理管道，建議使用 Document AI。這項解決方案會集中處理整個工作流程，從解讀文件到搜尋、儲存、治理及管理文件和擷取而得的資料，都能一手包辦。

如要分析及處理圖片，則可搭配使用 Cloud Vision 與其他 Google Cloud 產品，以達最佳效果。如需詳細說明和快速入門指南，請參閱「常見用途」部分。

擁有 Google Cloud 帳戶的使用者皆可免費試用這兩個 API。

比較 OCR 產品

OCR 產品		支援的裝置	主要功能與特色
Cloud Vision API		需要低延遲和高容量的一般文字擷取用途。	內建多項功能，例如為圖片加上標籤、偵測臉部和地標、OCR、安全搜尋。
Document AI	Enterprise Document OCR	將文件 (PDF、掃描成圖片的文件或 Microsoft DocX 檔案) 中的文字數位化。	擷取超過 200 種語言和 50 種手寫語言的文字。透過外掛程式辨識數學公式、樣式等等。
	Document AI Workbench	運用生成式 AI (基礎模型) 擷取、分類及分割各種文件	自訂擷取器：使用基礎模型快速建立剖析器，不需要執行大量的資料標籤或訓練作業。處理效率極高的自訂分類器和文件分割器。
	預先訓練的模型	擷取特定領域文件中的文字和欄位。	擷取各種採購、借貸、身分證明和合約文件的文字，並轉為數位格式。

Cloud Vision API

支援的裝置

需要低延遲和高容量的一般文字擷取用途。

主要功能與特色

內建多項功能，例如為圖片加上標籤、偵測臉部和地標、OCR、安全搜尋。

Document AI

Enterprise Document OCR

支援的裝置

將文件 (PDF、掃描成圖片的文件或 Microsoft DocX 檔案) 中的文字數位化。

主要功能與特色

擷取超過 200 種語言和 50 種手寫語言的文字。

透過外掛程式辨識數學公式、樣式等等。

Document AI Workbench

支援的裝置

運用生成式 AI (基礎模型) 擷取、分類及分割各種文件

主要功能與特色

自訂擷取器：使用基礎模型快速建立剖析器，不需要執行大量的資料標籤或訓練作業。

處理效率極高的自訂分類器和文件分割器。

預先訓練的模型

支援的裝置

擷取特定領域文件中的文字和欄位。

主要功能與特色

擷取各種採購、借貸、身分證明和合約文件的文字，並轉為數位格式。

運作方式

如要解讀並處理文件，請使用 Document AI。
如為圖片，則建議使用 Cloud Vision。
兩者都能讓您透過 API 依原樣部署預先訓練的機器學習模型，或是展開進階訓練。您還可以利用 AutoML 訓練專屬自訂模型，即使不具備機器學習專業知識也沒問題。
只要透過簡單的的 API 呼叫，即可使用 Cloud Vision 或 Document OCR，每個月前 1,000 個單位免費。

Cloud Vision 如何辨識及分類圖片

示範

搭配自己的文件，查看文件 OCR 的實際運作情形

透過簡單的拖曳動作試用 Document AI API。

常見用途

運用生成式 AI 擷取文件中的文字

運用 Document AI 從存在細微差異的文件中取得洞察資訊

Document AI Custom Extractor 採用基礎模型，能以更快、更準確的方式從文件中擷取出文字和資料 (無論是一般或特定領域的內容)。只要利用 5 到 10 份文件輕鬆微調，即可提高成效。

如要訓練自己的模型，請使用基礎模型為資料集自動加上標籤，藉此縮短導入實際工作環境的時間。

您也可以選擇使用預先訓練的專用處理器。如要查看完整的處理器清單，請按這裡。

25:47

操作說明

運用 Document AI 從存在細微差異的文件中取得洞察資訊

Document AI Custom Extractor 採用基礎模型，能以更快、更準確的方式從文件中擷取出文字和資料 (無論是一般或特定領域的內容)。只要利用 5 到 10 份文件輕鬆微調，即可提高成效。

如要訓練自己的模型，請使用基礎模型為資料集自動加上標籤，藉此縮短導入實際工作環境的時間。

您也可以選擇使用預先訓練的專用處理器。如要查看完整的處理器清單，請按這裡。

25:47

建構端對端文件解決方案

建構文件處理和解讀管道

Document AI 採用生成式 AI 技術，可從各種品質和採用不同版面配置的文件中以極為準確的方式擷取出資料。您可以將 Document AI 與 Cloud Storage 連結，讓非結構化文件達到企業級法規遵循要求。BigQuery 可讓您按照自己想要的方式，批次處理及分析擷取的資料。有了 Looker，您就能輕鬆依據 BigQuery 資料表建立圖表。使用 Gemini Enterprise Agent Platform 中的 Agent Search，即可透過對話或傳統方式查詢及查找 Cloud Storage 中的文件。

實作研究室：運用 Document AI 和 Cloud Functions 建構端對端的資料擷取管道

設定整個管道 (如圖所示) 需要 60 至 90 分鐘的時間，而 Document AI 的部分則需要 10 分鐘。

操作說明

建構文件處理和解讀管道

Document AI 採用生成式 AI 技術，可從各種品質和採用不同版面配置的文件中以極為準確的方式擷取出資料。您可以將 Document AI 與 Cloud Storage 連結，讓非結構化文件達到企業級法規遵循要求。BigQuery 可讓您按照自己想要的方式，批次處理及分析擷取的資料。有了 Looker，您就能輕鬆依據 BigQuery 資料表建立圖表。使用 Gemini Enterprise Agent Platform 中的 Agent Search，即可透過對話或傳統方式查詢及查找 Cloud Storage 中的文件。

實作研究室：運用 Document AI 和 Cloud Functions 建構端對端的資料擷取管道

設定整個管道 (如圖所示) 需要 60 至 90 分鐘的時間，而 Document AI 的部分則需要 10 分鐘。

標記、處理和搜尋圖片

使用 Cloud Vision API 和 AutoML 標記及處理圖片

圖片標記也稱為圖片標籤加註。

Cloud Vision API 可辨識圖片中的一般物體、地標、位置、標誌、活動、動物物種和產品等內容，並加上適當的標籤。系統使用偵測到的標籤來標記圖片後，就可以簡化並自動執行圖片的搜尋、處理和管理作業。

如要使用指定的自訂標籤，建議使用 Cloud AutoML 訓練自訂機器學習模型。

您可以前往 Cloud Marketplace 取得 OCR On-Prem 解決方案，在地端部署環境中使用 Google OCR 技術。

顯示 AutoML 與 Cloud Vision AI 與其他 Google Cloud 產品搭配分析圖片的架構圖

操作說明

使用 Cloud Vision API 和 AutoML 標記及處理圖片

圖片標記也稱為圖片標籤加註。

Cloud Vision API 可辨識圖片中的一般物體、地標、位置、標誌、活動、動物物種和產品等內容，並加上適當的標籤。系統使用偵測到的標籤來標記圖片後，就可以簡化並自動執行圖片的搜尋、處理和管理作業。

如要使用指定的自訂標籤，建議使用 Cloud AutoML 訓練自訂機器學習模型。

您可以前往 Cloud Marketplace 取得 OCR On-Prem 解決方案，在地端部署環境中使用 Google OCR 技術。

其他資源

計費示例

如果是使用基本的圖片處理管道來偵測標籤 (如右圖)，月費為 $27.36 美元。

您可以透過 Pricing Calculator，查看根據這個金額做出的假設用量。

每個月前 1,000 個單位免費。

擷取圖片中的文字

透過 Cloud Vision API 擷取圖片中的文字

您可以透過 Cloud Vision API，偵測並擷取圖片中不同語言的文字和手寫內容。另外，這項解決方案提供多區域支援，可讓您指定洲際資料儲存空間和 OCR 處理程序。

您可選擇處理少量圖片 (每個要求最多 16 張)，即時取得相關結果，也可以非同步批次處理大量圖片 (每個要求最多 2,000 張)，並於稍後查看結果。

操作說明

透過 Cloud Vision API 擷取圖片中的文字

您可以透過 Cloud Vision API，偵測並擷取圖片中不同語言的文字和手寫內容。另外，這項解決方案提供多區域支援，可讓您指定洲際資料儲存空間和 OCR 處理程序。

您可選擇處理少量圖片 (每個要求最多 16 張)，即時取得相關結果，也可以非同步批次處理大量圖片 (每個要求最多 2,000 張)，並於稍後查看結果。

其他資源

計費示例

如果是使用基本的處理管道來擷取圖片中的文字(如右圖)，月費為 $27.36 美元。

您可以透過 Pricing Calculator，查看根據這個金額做出的假設用量。

每個月前 1,000 個單位免費。

定價

個別應用實例的費用	瞭解滿足特定應用實例所需的月費，並掌握必要產品和關鍵用量假設。
用途	使用的產品	用量假設	預估每月費用 (美元)
標記、處理和搜尋圖片	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 每月呼叫 15,000 次 Cloud Vision 標籤偵測 API 2. 每月 100 GiB 的儲存空間 3. 一個 1.25 GiB CPU 4. 每天透過 Pub/Sub 發布 4 GiB 內容在 Calculator 中查看計算詳細資料	$27.36 美元
從文件中擷取文字和深入分析結果	Document AI Cloud Storage BigQuery Cloud Functions	1. 每月 1,000 次 Document AI 表單剖析器 API 呼叫 2. 每月 100 GiB 的儲存空間 3. 每月 1 TiB 的查詢量 4.RAM：512 MB，CPU：800 MHz 在 Calculator 中查看計算詳細資料	$71.87 美元
擷取圖片中的文字	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 每月 15,000 次 Cloud Vision OCR API 呼叫 2. 每月 100 GiB 的儲存空間 3. 一個 1.25 GiB CPU 4. 每天透過 Pub/Sub 發布 4 GiB 內容在 Calculator 中查看計算詳細資料	$27.36 美元

歡迎參閱 Document AI、Vision API 和 AutoML 的完整單位定價詳細資料。

個別應用實例的費用

瞭解滿足特定應用實例所需的月費，並掌握必要產品和關鍵用量假設。

標記、處理和搜尋圖片

使用的產品

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

用量假設

1. 每月呼叫 15,000 次 Cloud Vision 標籤偵測 API

2. 每月 100 GiB 的儲存空間

3. 一個 1.25 GiB CPU

4. 每天透過 Pub/Sub 發布 4 GiB 內容

在 Calculator 中查看計算詳細資料

預估每月費用 (美元)

$27.36 美元

從文件中擷取文字和深入分析結果

使用的產品

Document AI

Cloud Storage

BigQuery

Cloud Functions

用量假設

1. 每月 1,000 次 Document AI 表單剖析器 API 呼叫

2. 每月 100 GiB 的儲存空間

3. 每月 1 TiB 的查詢量

4.RAM：512 MB，CPU：800 MHz

在 Calculator 中查看計算詳細資料

預估每月費用 (美元)

$71.87 美元

擷取圖片中的文字

使用的產品

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

用量假設

1. 每月 15,000 次 Cloud Vision OCR API 呼叫

2. 每月 100 GiB 的儲存空間

3. 一個 1.25 GiB CPU

4. 每天透過 Pub/Sub 發布 4 GiB 內容

在 Calculator 中查看計算詳細資料

預估每月費用 (美元)

$27.36 美元

歡迎參閱 Document AI、Vision API 和 AutoML 的完整單位定價詳細資料。

Pricing Calculator

集中提取所有必要工具的資料，方便您估算專案費用。

客製化報價

貴機構如需根據獨特需求索取客製化報價，請與我們的銷售團隊聯絡。

OCR (光學字元辨識)

採用世界級 Google Cloud AI 技術的光學字元辨識 (OCR) 解決方案

OCR 重點功能與特色

什麼是 OCR？

Google Cloud 提供哪些類型的 OCR 解決方案？

OCR 在 Google Cloud 上的運作方式為何？

Google Cloud AI 與 OCR 如何搭配運作？

我適合使用哪一種 OCR 解決方案？

搭配自己的文件，查看文件 OCR 的實際運作情形

運用生成式 AI 擷取文件中的文字

運用 Document AI 從存在細微差異的文件中取得洞察資訊

操作說明

運用 Document AI 從存在細微差異的文件中取得洞察資訊

建構端對端文件解決方案

建構文件處理和解讀管道

操作說明

建構文件處理和解讀管道

標記、處理和搜尋圖片

使用 Cloud Vision API 和 AutoML 標記及處理圖片

計費示例

操作說明

使用 Cloud Vision API 和 AutoML 標記及處理圖片

其他資源

計費示例

擷取圖片中的文字

透過 Cloud Vision API 擷取圖片中的文字

計費示例

操作說明

透過 Cloud Vision API 擷取圖片中的文字

其他資源

計費示例

Pricing Calculator

客製化報價

開始驗證概念

新客戶可以獲得價值高達 $300 美元的免費抵免額，盡情試用 Google Cloud 產品

要進行大型專案嗎？

查看 OCR 解決方案和應用實例的程式碼範例

瞭解如何運用 Cloud Vision API 偵測標籤

瞭解如何使用 Google AI 自動化文件處理管道