OCR(光学字符识别)

采用先进的 Google Cloud AI 的 OCR(光学字符识别)

您可以从图片和文档中提取文本和数据,将非结构化内容转换为可供企业直接使用的结构化数据,并挖掘有价值的数据洞见。

通过 API 将 OCR 功能集成到您的应用中。

新客户注册时可获得 $300 赠金,用于抵扣文档总结 OCR 解决方案的费用。

概览

什么是 OCR?

光学字符识别 (OCR) 是一种将输入、手写或印刷体文本从图片转换为机器编码文本的基础技术。

Google Cloud 提供哪些类型的 OCR?

Google Cloud 提供两种类型的 OCR:文档 OCR 以及图片和视频 OCR。

虽然两者使用相同的基础技术,但 Document AI 是一个针对文档处理进行了优化的文档理解平台。它的自定义提取器由生成式 AI 提供支持,生成式 AI 可处理通用文档和特定领域的文档,准确性更高,速度更快,无需选择专用处理器。

Cloud Vision 通常用于检测图片和视频中的文本、手写内容和各种各样的对象。

OCR 在 Google Cloud 上的工作原理是什么?

Google Cloud 采用出色的 AI 技术为 OCR 提供支持。它超越了传统的文本识别,可以理解、整理和丰富数据,并最终生成可供企业直接使用的数据洞见。

它的使用方式十分灵活,您既可以以统一套件的形式使用 OCR 工具以提高效率(例如 Document AI),也可以仅调用 Google Cloud 控制台中直接提供的相关 API 以将 OCR 功能集成到您的应用中。

Google Cloud AI 和 OCR 如何协同工作?

上述所有 OCR 解决方案都支持使用预训练的机器学习模型(您可以通过 API 立即部署这些模型),或进行追加训练以提高准确率来满足您的特定需求。

您还可以使用 AutoML 训练自己的自定义模型,并且您无需具备机器学习专业知识。

如需了解如何构建自定义机器学习模型,请参阅 AutoML 文档

哪种 OCR 解决方案适合我?

如果您想要分析文档,或构建自动化文档处理流水线,请使用 Document AI,它会在一个集中的位置处理整个工作流,包括理解文档,搜索、存储、治理和管理文档以及提取的数据。

如果您想要分析和处理图片,请将 Cloud Vision 与其他 Google Cloud 产品搭配使用,以获得最佳结果。请查看“常见用途”部分了解详情并查看快速入门指南。

这两个 API 都可以通过 Google Cloud 账号免费试用

比较 OCR 产品

OCR 产品适用场景主要特性

需要低延迟和高容量的常规文本提取使用场景。

预构建的功能,例如为图片添加标签、人脸和地标检测、OCR、安全搜索。

Enterprise Document OCR

对文档(PDF 文档、图片扫描文档或 Microsoft DocX 文件)中的文本进行数字化处理。

提取 200 多种语言、50 种手写语言的文本。

用于识别数学公式、样式等的插件。



Document AI Workbench

使用生成式 AI(基础模型)提取和拆分任何文档,以及对任何文档进行分类

自定义提取器:使用基础模型快速创建解析器,无需进行大量数据标记或训练。

自定义分类器和文档拆分器,用于提高处理效率。

预训练模型

从特定领域的文档中提取文本和字段。

跨各种采购贷款身份合同文档进行文本提取和数字化。

适用场景

主要特性

需要低延迟和高容量的常规文本提取使用场景。

预构建的功能,例如为图片添加标签、人脸和地标检测、OCR、安全搜索。

适用场景

Enterprise Document OCR

主要特性

对文档(PDF 文档、图片扫描文档或 Microsoft DocX 文件)中的文本进行数字化处理。

提取 200 多种语言、50 种手写语言的文本。

用于识别数学公式、样式等的插件。



适用场景

Document AI Workbench

主要特性

使用生成式 AI(基础模型)提取和拆分任何文档,以及对任何文档进行分类

自定义提取器:使用基础模型快速创建解析器,无需进行大量数据标记或训练。

自定义分类器和文档拆分器,用于提高处理效率。

适用场景

预训练模型

主要特性

从特定领域的文档中提取文本和字段。

跨各种采购贷款身份合同文档进行文本提取和数字化。

工作方式

如需理解和处理文档,请使用 Document AI。

对于图片,我们建议使用 Cloud Vision

两者都提供预训练的机器学习模型,您可以通过 API 按原样部署,也可以追加训练。您还可以使用 AutoML 从头开始训练自己的自定义模型,并且您无需具备机器学习专业知识。

使用 Cloud Vision 或 Document OCR 时,每月的前 1,000 个单位免费,您可以通过一个简单的 API 调用来试用。

显示 Cloud 产品协同工作的图片
Cloud Vision 如何识别和分类图片

演示

使用您自己的文档查看 Document OCR 的运作情况

通过简单的拖放操作试用 Document AI API。

常见用途

使用生成式 AI 从文档中提取文本

利用 Document AI 从细节丰富的文档中挖掘数据洞见

借助基础模型,Document AI 自定义提取器能够更快速、更准确地从文档(通用和特定领域)中提取文本和数据。只需 5-10 个文档即可轻松进行微调,以实现更好的效果。

如果您想训练自己的模型,可使用基础模型为数据集自动添加标签,以加快投入生产的速度。

您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表


部署 Document AI API

利用 Document AI 从细节丰富的文档中挖掘数据洞见

借助基础模型,Document AI 自定义提取器能够更快速、更准确地从文档(通用和特定领域)中提取文本和数据。只需 5-10 个文档即可轻松进行微调,以实现更好的效果。

如果您想训练自己的模型,可使用基础模型为数据集自动添加标签,以加快投入生产的速度。

您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表


部署 Document AI API

构建端到端文档解决方案

构建文档处理和理解流水线

Document AI 依托生成式 AI 技术,可以精准地从布局和质量不同的文档中提取数据。您可以将其与 Cloud Storage 连接,让您的非结构化文档符合企业级合规性。BigQuery 可帮助您以自己喜欢的任何方式对提取的数据进行批处理和分析。借助 Looker,您可以根据 BigQuery 表轻松构建可视化图表。Vertex AI Search 可让您查询和搜索 Cloud Storage 中的文档,无论采用对话方式还是传统方式。

部署 Document AI API
包含多个 Google Cloud 产品的端到端文档解决方案的参考架构

设置如图所示的整个流水线需要 60-90 分钟,Document AI 部分需要 10 分钟

构建文档处理和理解流水线

Document AI 依托生成式 AI 技术,可以精准地从布局和质量不同的文档中提取数据。您可以将其与 Cloud Storage 连接,让您的非结构化文档符合企业级合规性。BigQuery 可帮助您以自己喜欢的任何方式对提取的数据进行批处理和分析。借助 Looker,您可以根据 BigQuery 表轻松构建可视化图表。Vertex AI Search 可让您查询和搜索 Cloud Storage 中的文档,无论采用对话方式还是传统方式。

部署 Document AI API
包含多个 Google Cloud 产品的端到端文档解决方案的参考架构

设置如图所示的整个流水线需要 60-90 分钟,Document AI 部分需要 10 分钟

从图片中提取文本

使用 Cloud Vision API 从图片中提取文本

通过 Cloud Vision API,您可以检测和提取图片中不同语言的文本和手写内容。它还提供多区域支持,您可以指定大洲级别的数据存储和 OCR 处理。

您可以选择处理少量图片(每个请求最多 16 张)并立即获得结果,也可以选择异步批处理大量图片(每个请求最多 2000 张)并在稍后获得结果。

部署 Cloud Vision API
Cloud Vision API 参考架构

使用 Cloud Vision API 从图片中提取文本

通过 Cloud Vision API,您可以检测和提取图片中不同语言的文本和手写内容。它还提供多区域支持,您可以指定大洲级别的数据存储和 OCR 处理。

您可以选择处理少量图片(每个请求最多 16 张)并立即获得结果,也可以选择异步批处理大量图片(每个请求最多 2000 张)并在稍后获得结果。

部署 Cloud Vision API
Cloud Vision API 参考架构

价格示例

如需运行从图像中提取文本的基本处理流水线(如右图所示),您的每月费用将为 $27.36

您可以在价格计算器中查看此数值所基于的用量假设。

每月的前 1,000 个单位免费。

联系我们了解更复杂的设置
图像处理

    价格

    我的用例的费用是多少?了解所需用例的每月费用,以及您需要的产品和主要用量假设。
    使用场景使用的产品用量假设估算的每月费用(美元)
    图像标记、处理和搜索

    Cloud Vision

    Cloud Storage

    Pub/Sub

    Cloud Run

    1. 每月 15,000 次 Cloud Vision 标签检测 API 调用

    2. 100 GiB 月存储空间

    3. 一个 1.25 GiB 的 CPU

    4.每天通过 Pub/Sub 发布 4 GiB

    在计算器中查看计算详情

    $27.36

    从文档中提取文本和数据洞见

    Document AI

    Cloud Storage

    BigQuery

    Cloud Functions

    1. 每月 1,000 次 Document AI 表单解析器 API 调用

    2.100 GiB 月存储空间

    3. 每月 1 TiB 查询

    4. RAM:512 MB,CPU:800 MHz

    在计算器中查看计算详情

    $71.87

    从图片中提取文本

    Cloud Vision

    Cloud Storage

    Pub/Sub

    Cloud Run

    1. 每月 15,000 次 Cloud Vision OCR API 调用

    2.100 GiB 月存储空间

    3. 一个 1.25 GiB 的 CPU

    4.每天通过 Pub/Sub 发布 4 GiB

    在计算器中查看计算详情

    $27.36

    请参阅 Document AIVision APIAutoML 的完整单位价格详情。

    我的用例的费用是多少?

    了解所需用例的每月费用,以及您需要的产品和主要用量假设。

    图像标记、处理和搜索
    使用的产品

    Cloud Vision

    Cloud Storage

    Pub/Sub

    Cloud Run

    用量假设

    1. 每月 15,000 次 Cloud Vision 标签检测 API 调用

    2. 100 GiB 月存储空间

    3. 一个 1.25 GiB 的 CPU

    4.每天通过 Pub/Sub 发布 4 GiB

    在计算器中查看计算详情

    估算的每月费用(美元)

    $27.36

    从文档中提取文本和数据洞见
    使用的产品

    Document AI

    Cloud Storage

    BigQuery

    Cloud Functions

    用量假设

    1. 每月 1,000 次 Document AI 表单解析器 API 调用

    2.100 GiB 月存储空间

    3. 每月 1 TiB 查询

    4. RAM:512 MB,CPU:800 MHz

    在计算器中查看计算详情

    估算的每月费用(美元)

    $71.87

    从图片中提取文本
    使用的产品

    Cloud Vision

    Cloud Storage

    Pub/Sub

    Cloud Run

    用量假设

    1. 每月 15,000 次 Cloud Vision OCR API 调用

    2.100 GiB 月存储空间

    3. 一个 1.25 GiB 的 CPU

    4.每天通过 Pub/Sub 发布 4 GiB

    在计算器中查看计算详情

    估算的每月费用(美元)

    $27.36

    请参阅 Document AIVision APIAutoML 的完整单位价格详情。

    价格计算器

    将您需要的所有工具汇集到一个地方来估算项目费用。

    定制报价

    请与我们的销售团队联系,获取针对贵组织的独特需求量身定制的报价。

    开始概念验证

    新客户可获享最高 $300 赠金,用于试用 Google Cloud 产品

    有一个大型项目?

    查看 OCR 解决方案的代码示例和用例

    了解如何使用 Cloud Vision API 检测标签

    了解如何使用 Google AI 自动执行文档处理流水线

    Google Cloud
    • ‪English‬
    • ‪Deutsch‬
    • ‪Español‬
    • ‪Español (Latinoamérica)‬
    • ‪Français‬
    • ‪Indonesia‬
    • ‪Italiano‬
    • ‪Português (Brasil)‬
    • ‪简体中文‬
    • ‪繁體中文‬
    • ‪日本語‬
    • ‪한국어‬
    控制台