Optical Character Recognition (OCR) is a foundational technology behind the conversion of typed, handwritten or printed text from images into machine-encoded text.

What types of OCR does Google Cloud offer?

Google Cloud offers two types of OCR: OCR for documents and OCR for images and videos. Document AI is a document understanding platform optimized for document processing (powered by GenAI). Cloud Vision is commonly used to detect text, handwriting, and a wide range of objects from images and videos.

How does OCR work at Google Cloud?

Google Cloud powers OCR with best-in-class AI. It goes beyond traditional text recognition by understanding, organizing, and enriching data to generate business-ready insights. You can use the tools as a unified suite (e.g., Document AI) or call relevant APIs directly.

How Google Cloud AI and OCR work together?

All OCR solutions give you access to pre-trained ML models that you can deploy immediately or uptrain for specific needs. You can also train custom models using AutoML without needing machine learning expertise.

Which OCR solution is right for me?

If you want to analyze a document or build a processing pipeline, use Document AI. If you want to analyze and process images, use Cloud Vision. Both APIs are free to try with a Google Cloud account.

试用 Gemini 3，这是 Gemini Enterprise Agent Platform 中最适合推理、编码和多模态理解的模型

OCR（光学字符识别）

采用先进的 Google Cloud AI 的 OCR（光学字符识别）

您可以从图片和文档中提取文本和数据，将非结构化内容转换为可供企业直接使用的结构化数据，并挖掘有价值的数据洞见。

通过 API 将 OCR 功能集成到您的应用中。

新客户注册时可获得 $300 赠金，用于抵扣文档总结 OCR 解决方案的费用。

概览

什么是 OCR？

光学字符识别 (OCR) 是一种将输入、手写或印刷体文本从图片转换为机器编码文本的基础技术。

Google Cloud 提供哪些类型的 OCR？

Google Cloud 提供两种类型的 OCR：文档 OCR 以及图片和视频 OCR。

虽然两者使用相同的基础技术，但 Document AI 是一个针对文档处理进行了优化的文档理解平台。它的自定义提取器由生成式 AI 提供支持，生成式 AI 可处理通用文档和特定领域的文档，准确性更高，速度更快，无需选择专用处理器。

Cloud Vision 通常用于检测图片和视频中的文本、手写内容和各种各样的对象。

OCR 在 Google Cloud 上的工作原理是什么？

Google Cloud 采用出色的 AI 技术为 OCR 提供支持。它超越了传统的文本识别，可以理解、整理和丰富数据，并最终生成可供企业直接使用的数据洞见。

它的使用方式十分灵活，您既可以以统一套件的形式使用 OCR 工具以提高效率（例如 Document AI），也可以仅调用 Google Cloud 控制台中直接提供的相关 API 以将 OCR 功能集成到您的应用中。

视频

Document AI 是什么？

4:36

Google Cloud AI 和 OCR 如何协同工作？

上述所有 OCR 解决方案都支持使用预训练的机器学习模型（您可以通过 API 立即部署这些模型），或进行追加训练以提高准确率来满足您的特定需求。

您还可以使用 AutoML 训练自己的自定义模型，并且您无需具备机器学习专业知识。

如需了解如何构建自定义机器学习模型，请参阅 AutoML 文档。

视频

何时以及如何使用 AutoML 构建和训练机器学习模型

2:11

哪种 OCR 解决方案适合我？

如果您想要分析文档，或构建自动化文档处理流水线，请使用 Document AI，它会在一个集中的位置处理整个工作流，包括理解文档，搜索、存储、治理和管理文档以及提取的数据。

如果您想要分析和处理图片，请将 Cloud Vision 与其他 Google Cloud 产品搭配使用，以获得最佳结果。请查看“常见用途”部分了解详情并查看快速入门指南。

这两个 API 都可以通过 Google Cloud 账号免费试用。

比较 OCR 产品

OCR 产品		支持的设备	主要特性
Cloud Vision API		需要低延迟和高容量的常规文本提取使用场景。	预构建的功能，例如为图片加标签、人脸和地标检测、OCR、安全搜索。
Document AI	Enterprise Document OCR	对文档（PDF 文档、图片扫描文档或 Microsoft DocX 文件）中的文本进行数字化处理。	提取 200 多种语言、50 种手写语言的文本。可识别数学公式、样式等的插件
	Document AI Workbench	使用生成式 AI（基础模型）提取和拆分任何文档，以及对任何文档进行分类	自定义提取器：使用基础模型快速创建解析器，无需进行大量数据标记或训练。自定义分类器和文档拆分器，用于提高处理效率。
	预训练模型	从特定领域的文档中提取文本和字段。	跨各种采购、贷款、身份和合同文档进行文本提取和数字化。

Cloud Vision API

支持的设备

需要低延迟和高容量的常规文本提取使用场景。

主要特性

预构建的功能，例如为图片加标签、人脸和地标检测、OCR、安全搜索。

Document AI

Enterprise Document OCR

支持的设备

对文档（PDF 文档、图片扫描文档或 Microsoft DocX 文件）中的文本进行数字化处理。

主要特性

提取 200 多种语言、50 种手写语言的文本。

可识别数学公式、样式等的插件

Document AI Workbench

支持的设备

使用生成式 AI（基础模型）提取和拆分任何文档，以及对任何文档进行分类

主要特性

自定义提取器：使用基础模型快速创建解析器，无需进行大量数据标记或训练。

自定义分类器和文档拆分器，用于提高处理效率。

预训练模型

支持的设备

从特定领域的文档中提取文本和字段。

主要特性

跨各种采购、贷款、身份和合同文档进行文本提取和数字化。

工作方式

如需理解和处理文档，请使用 Document AI。
对于图片，我们建议使用 Cloud Vision。
两者都提供预训练的机器学习模型，您可以通过 API 按原样部署，也可以追加训练。您还可以使用 AutoML 从头开始训练自己的自定义模型，并且您无需具备机器学习专业知识。
使用 Cloud Vision 或 Document OCR 时，每月的前 1,000 个单位免费，您可以通过一个简单的 API 调用来试用。

Cloud Vision 如何识别和分类图片

演示

使用您自己的文档查看 Document OCR 的运作情况

只需简单拖放，即可试用 Document AI API。

常见用途

使用生成式 AI 从文档中提取文本

利用 Document AI 从细节丰富的文档中挖掘数据洞见

Document AI 自定义提取器由基础模型提供支持，可以更快、更准确地从通用文档和特定领域文档中提取文本和数据。只需 5-10 份文档即可轻松进行微调，进一步提升性能。

如果您想训练自己的模型，可以使用基础模型为数据集自动添加标签，从而更快地投入生产。

您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表。

25:47

方法指南

利用 Document AI 从细节丰富的文档中挖掘数据洞见

Document AI 自定义提取器由基础模型提供支持，可以更快、更准确地从通用文档和特定领域文档中提取文本和数据。只需 5-10 份文档即可轻松进行微调，进一步提升性能。

如果您想训练自己的模型，可以使用基础模型为数据集自动添加标签，从而更快地投入生产。

您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表。

25:47

构建端到端文档解决方案

构建文档处理和理解流水线

由生成式 AI 提供支持的 Document AI 能够非常准确地从布局和质量各异的文档中提取数据。您可以将其与 Cloud Storage 连接，让非结构化文档符合企业级合规性要求。BigQuery 可帮助您以自己喜欢的任何方式对提取的数据进行批处理和分析。借助 Looker，您可以轻松地根据 BigQuery 表构建可视化图表。Gemini Enterprise Agent Platform 上的 Agent Search 可让您以对话式或传统方式查询和搜索 Cloud Storage 中的文档。

实操实验：使用 Document AI 和 Cloud Functions 构建端到端数据捕获流水线

设置如图所示的整个流水线需要 60-90 分钟，Document AI 部分需要 10 分钟。

方法指南

构建文档处理和理解流水线

由生成式 AI 提供支持的 Document AI 能够非常准确地从布局和质量各异的文档中提取数据。您可以将其与 Cloud Storage 连接，让非结构化文档符合企业级合规性要求。BigQuery 可帮助您以自己喜欢的任何方式对提取的数据进行批处理和分析。借助 Looker，您可以轻松地根据 BigQuery 表构建可视化图表。Gemini Enterprise Agent Platform 上的 Agent Search 可让您以对话式或传统方式查询和搜索 Cloud Storage 中的文档。

实操实验：使用 Document AI 和 Cloud Functions 构建端到端数据捕获流水线

设置如图所示的整个流水线需要 60-90 分钟，Document AI 部分需要 10 分钟。

图像标记、处理和搜索

使用 Cloud Vision API 和 AutoML 标记和处理图片

图像标记也称为图像标签。

Cloud Vision API 可以识别并标记图片中的普通物体、地标、地点、徽标、活动、动物品种和商品等。为图片添加检测到的标签后，就可以轻松地自动进行图片搜索、处理和管理。

如果您需要有针对性的自定义标签，请使用 Cloud AutoML 训练自定义机器学习模型。

如需在本地使用 Google OCR 技术，请使用 OCR On-Prem，可在 Cloud Marketplace 中获取。

显示 AutoML 和 Cloud Vision AI 与其他 Google Cloud 产品协同工作来分析图片的架构图

方法指南

使用 Cloud Vision API 和 AutoML 标记和处理图片

图像标记也称为图像标签。

Cloud Vision API 可以识别并标记图片中的普通物体、地标、地点、徽标、活动、动物品种和商品等。为图片添加检测到的标签后，就可以轻松地自动进行图片搜索、处理和管理。

如果您需要有针对性的自定义标签，请使用 Cloud AutoML 训练自定义机器学习模型。

如需在本地使用 Google OCR 技术，请使用 OCR On-Prem，可在 Cloud Marketplace 中获取。

其他资源

价格示例

如需运行检测图片的基本图片处理流水线（如右图所示），您的每月费用将为 $27.36。

您可以在价格计算器中查看此数值所基于的用量假设。

每月的前 1,000 个单位免费。

从图片中提取文本

使用 Cloud Vision API 从图片中提取文本

通过 Cloud Vision API，您可以检测和提取图片中不同语言的文本和手写内容。它还提供多区域支持，您可以指定大洲级别的数据存储和 OCR 处理。

您可以选择处理少量图片（每个请求最多 16 张）并立即获得结果，也可以选择异步批处理大量图片（每个请求最多 2000 张）并在稍后获得结果。

方法指南

使用 Cloud Vision API 从图片中提取文本

通过 Cloud Vision API，您可以检测和提取图片中不同语言的文本和手写内容。它还提供多区域支持，您可以指定大洲级别的数据存储和 OCR 处理。

您可以选择处理少量图片（每个请求最多 16 张）并立即获得结果，也可以选择异步批处理大量图片（每个请求最多 2000 张）并在稍后获得结果。

其他资源

价格示例

如需运行从图像中提取文本的基本处理流水线（如右图所示），您的每月费用将为 $27.36。

您可以在价格计算器中查看此数值所基于的用量假设。

每月的前 1,000 个单位免费。

价格

我的用例的费用是多少？	了解所需用例的每月费用，以及您需要的产品和主要用量假设。
使用场景	使用的产品	用量假设	估算的每月费用（美元）
图像标记、处理和搜索	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 每月 15,000 次 Cloud Vision 标签检测 API 调用 2. 100 GiB 月存储空间 3. 一个 1.25 GiB 的 CPU 4. 每天通过 Pub/Sub 发布 4 GiB 在计算器中查看计算详情	$27.36
从文档中提取文本和数据洞见	Document AI Cloud Storage BigQuery Cloud Functions	1. 每月 1,000 次 Document AI 表单解析器 API 调用 2. 100 GiB 月存储空间 3. 每月 1 TiB 查询 4. RAM：512 MB，CPU：800 MHz 在计算器中查看计算详情	$71.87
从图片中提取文本	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 每月 15,000 次 Cloud Vision OCR API 调用 2. 100 GiB 月存储空间 3. 一个 1.25 GiB 的 CPU 4. 每天通过 Pub/Sub 发布 4 GiB 在计算器中查看计算详情	$27.36

请参阅 Document AI、Vision API 和 AutoML 的完整单位价格详情。

我的用例的费用是多少？

了解所需用例的每月费用，以及您需要的产品和主要用量假设。

图像标记、处理和搜索

使用的产品

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

用量假设

1. 每月 15,000 次 Cloud Vision 标签检测 API 调用

2. 100 GiB 月存储空间

3. 一个 1.25 GiB 的 CPU

4. 每天通过 Pub/Sub 发布 4 GiB

在计算器中查看计算详情

估算的每月费用（美元）

$27.36

从文档中提取文本和数据洞见

使用的产品

Document AI

Cloud Storage

BigQuery

Cloud Functions

用量假设

1. 每月 1,000 次 Document AI 表单解析器 API 调用

2. 100 GiB 月存储空间

3. 每月 1 TiB 查询

4. RAM：512 MB，CPU：800 MHz

在计算器中查看计算详情

估算的每月费用（美元）

$71.87

从图片中提取文本

使用的产品

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

用量假设

1. 每月 15,000 次 Cloud Vision OCR API 调用

2. 100 GiB 月存储空间

3. 一个 1.25 GiB 的 CPU

4. 每天通过 Pub/Sub 发布 4 GiB

在计算器中查看计算详情

估算的每月费用（美元）

$27.36

请参阅 Document AI、Vision API 和 AutoML 的完整单位价格详情。

价格计算器

将您需要的所有工具汇集到一个地方来估算项目费用。

定制报价

请与我们的销售团队联系，获取针对贵组织的独特需求量身定制的报价。

OCR（光学字符识别）

采用先进的 Google Cloud AI 的 OCR（光学字符识别）

OCR 亮点

什么是 OCR？

Google Cloud 提供哪些类型的 OCR？

OCR 在 Google Cloud 上的工作原理是什么？

Google Cloud AI 和 OCR 如何协同工作？

哪种 OCR 解决方案适合我？

使用您自己的文档查看 Document OCR 的运作情况

使用生成式 AI 从文档中提取文本

利用 Document AI 从细节丰富的文档中挖掘数据洞见

方法指南

利用 Document AI 从细节丰富的文档中挖掘数据洞见

构建端到端文档解决方案

构建文档处理和理解流水线

方法指南

构建文档处理和理解流水线

图像标记、处理和搜索

使用 Cloud Vision API 和 AutoML 标记和处理图片

价格示例

方法指南

使用 Cloud Vision API 和 AutoML 标记和处理图片

其他资源

价格示例

从图片中提取文本

使用 Cloud Vision API 从图片中提取文本

价格示例

方法指南

使用 Cloud Vision API 从图片中提取文本

其他资源

价格示例

价格计算器

定制报价

开始概念验证

新客户最高可获享 300 美元的赠金，用于试用 Google Cloud 产品

需要支持大型项目？

查看 OCR 解决方案的代码示例和用例

了解如何使用 Cloud Vision API 检测标签

了解如何使用 Google AI 自动执行文档处理流水线