您可以从图片和文档中提取文本和数据,将非结构化内容转换为可供企业直接使用的结构化数据,并挖掘有价值的数据洞见。
通过 API 将 OCR 功能集成到您的应用中。
新客户注册时可获得 $300 赠金,用于抵扣文档总结 OCR 解决方案的费用。
概览
Google Cloud 提供两种类型的 OCR:文档 OCR 以及图片和视频 OCR。
虽然两者使用相同的基础技术,但 Document AI 是一个针对文档处理进行了优化的文档理解平台。它的自定义提取器由生成式 AI 提供支持,生成式 AI 可处理通用文档和特定领域的文档,准确性更高,速度更快,无需选择专用处理器。
Cloud Vision 通常用于检测图片和视频中的文本、手写内容和各种各样的对象。
Google Cloud 采用出色的 AI 技术为 OCR 提供支持。它超越了传统的文本识别,可以理解、整理和丰富数据,并最终生成可供企业直接使用的数据洞见。
它的使用方式十分灵活,您既可以以统一套件的形式使用 OCR 工具以提高效率(例如 Document AI),也可以仅调用 Google Cloud 控制台中直接提供的相关 API 以将 OCR 功能集成到您的应用中。
上述所有 OCR 解决方案都支持使用预训练的机器学习模型(您可以通过 API 立即部署这些模型),或进行追加训练以提高准确率来满足您的特定需求。
您还可以使用 AutoML 训练自己的自定义模型,并且您无需具备机器学习专业知识。
如需了解如何构建自定义机器学习模型,请参阅 AutoML 文档。
如果您想要分析文档,或构建自动化文档处理流水线,请使用 Document AI,它会在一个集中的位置处理整个工作流,包括理解文档,搜索、存储、治理和管理文档以及提取的数据。
如果您想要分析和处理图片,请将 Cloud Vision 与其他 Google Cloud 产品搭配使用,以获得最佳结果。请查看“常见用途”部分了解详情并查看快速入门指南。
这两个 API 都可以通过 Google Cloud 账号免费试用。
比较 OCR 产品
OCR 产品 | 适用场景 | 主要特性 | |
---|---|---|---|
| 需要低延迟和高容量的常规文本提取使用场景。 | 预构建的功能,例如为图片添加标签、人脸和地标检测、OCR、安全搜索。 | |
Enterprise Document OCR | 对文档(PDF 文档、图片扫描文档或 Microsoft DocX 文件)中的文本进行数字化处理。 | 提取 200 多种语言、50 种手写语言的文本。 用于识别数学公式、样式等的插件。 | |
| Document AI Workbench | 使用生成式 AI(基础模型)提取和拆分任何文档,以及对任何文档进行分类 | 自定义提取器:使用基础模型快速创建解析器,无需进行大量数据标记或训练。 自定义分类器和文档拆分器,用于提高处理效率。 |
| 预训练模型 | 从特定领域的文档中提取文本和字段。 |
Enterprise Document OCR
对文档(PDF 文档、图片扫描文档或 Microsoft DocX 文件)中的文本进行数字化处理。
提取 200 多种语言、50 种手写语言的文本。
用于识别数学公式、样式等的插件。
Document AI Workbench
使用生成式 AI(基础模型)提取和拆分任何文档,以及对任何文档进行分类
自定义提取器:使用基础模型快速创建解析器,无需进行大量数据标记或训练。
自定义分类器和文档拆分器,用于提高处理效率。
工作方式
如需理解和处理文档,请使用 Document AI。
对于图片,我们建议使用 Cloud Vision。
两者都提供预训练的机器学习模型,您可以通过 API 按原样部署,也可以追加训练。您还可以使用 AutoML 从头开始训练自己的自定义模型,并且您无需具备机器学习专业知识。
使用 Cloud Vision 或 Document OCR 时,每月的前 1,000 个单位免费,您可以通过一个简单的 API 调用来试用。
演示
通过简单的拖放操作试用 Document AI API。
常见用途
借助基础模型,Document AI 自定义提取器能够更快速、更准确地从文档(通用和特定领域)中提取文本和数据。只需 5-10 个文档即可轻松进行微调,以实现更好的效果。
如果您想训练自己的模型,可使用基础模型为数据集自动添加标签,以加快投入生产的速度。
您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表。
借助基础模型,Document AI 自定义提取器能够更快速、更准确地从文档(通用和特定领域)中提取文本和数据。只需 5-10 个文档即可轻松进行微调,以实现更好的效果。
如果您想训练自己的模型,可使用基础模型为数据集自动添加标签,以加快投入生产的速度。
您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表。
Document AI 依托生成式 AI 技术,可以精准地从布局和质量不同的文档中提取数据。您可以将其与 Cloud Storage 连接,让您的非结构化文档符合企业级合规性。BigQuery 可帮助您以自己喜欢的任何方式对提取的数据进行批处理和分析。借助 Looker,您可以根据 BigQuery 表轻松构建可视化图表。Vertex AI Search 可让您查询和搜索 Cloud Storage 中的文档,无论采用对话方式还是传统方式。
设置如图所示的整个流水线需要 60-90 分钟,Document AI 部分需要 10 分钟。
Document AI 依托生成式 AI 技术,可以精准地从布局和质量不同的文档中提取数据。您可以将其与 Cloud Storage 连接,让您的非结构化文档符合企业级合规性。BigQuery 可帮助您以自己喜欢的任何方式对提取的数据进行批处理和分析。借助 Looker,您可以根据 BigQuery 表轻松构建可视化图表。Vertex AI Search 可让您查询和搜索 Cloud Storage 中的文档,无论采用对话方式还是传统方式。
设置如图所示的整个流水线需要 60-90 分钟,Document AI 部分需要 10 分钟。
图像标记也称为图像标签。
Cloud Vision API 可以识别并标记图片中的普通物体、地标、地点、徽标、活动、动物品种和商品等。为图片添加检测到的标签后,就可以轻松地自动进行图片搜索、处理和管理。
如果您需要有针对性的自定义标签,请使用 Cloud AutoML 训练自定义机器学习模型。
如需在本地使用 Google OCR 技术,请使用 OCR On-Prem,可在 Cloud Marketplace 中获取。
图像标记也称为图像标签。
Cloud Vision API 可以识别并标记图片中的普通物体、地标、地点、徽标、活动、动物品种和商品等。为图片添加检测到的标签后,就可以轻松地自动进行图片搜索、处理和管理。
如果您需要有针对性的自定义标签,请使用 Cloud AutoML 训练自定义机器学习模型。
如需在本地使用 Google OCR 技术,请使用 OCR On-Prem,可在 Cloud Marketplace 中获取。
通过 Cloud Vision API,您可以检测和提取图片中不同语言的文本和手写内容。它还提供多区域支持,您可以指定大洲级别的数据存储和 OCR 处理。
您可以选择处理少量图片(每个请求最多 16 张)并立即获得结果,也可以选择异步批处理大量图片(每个请求最多 2000 张)并在稍后获得结果。
通过 Cloud Vision API,您可以检测和提取图片中不同语言的文本和手写内容。它还提供多区域支持,您可以指定大洲级别的数据存储和 OCR 处理。
您可以选择处理少量图片(每个请求最多 16 张)并立即获得结果,也可以选择异步批处理大量图片(每个请求最多 2000 张)并在稍后获得结果。
价格
我的用例的费用是多少? | 了解所需用例的每月费用,以及您需要的产品和主要用量假设。 | ||
---|---|---|---|
使用场景 | 使用的产品 | 用量假设 | 估算的每月费用(美元) |
图像标记、处理和搜索 | Cloud Vision Cloud Storage Pub/Sub Cloud Run | 1. 每月 15,000 次 Cloud Vision 标签检测 API 调用 2. 100 GiB 月存储空间 3. 一个 1.25 GiB 的 CPU 4.每天通过 Pub/Sub 发布 4 GiB | $27.36 |
从文档中提取文本和数据洞见 | Document AI Cloud Storage BigQuery Cloud Functions | 1. 每月 1,000 次 Document AI 表单解析器 API 调用 2.100 GiB 月存储空间 3. 每月 1 TiB 查询 4. RAM:512 MB,CPU:800 MHz | $71.87 |
从图片中提取文本 | Cloud Vision Cloud Storage Pub/Sub Cloud Run | 1. 每月 15,000 次 Cloud Vision OCR API 调用 2.100 GiB 月存储空间 3. 一个 1.25 GiB 的 CPU 4.每天通过 Pub/Sub 发布 4 GiB | $27.36 |
请参阅 Document AI、Vision API 和 AutoML 的完整单位价格详情。
我的用例的费用是多少?
了解所需用例的每月费用,以及您需要的产品和主要用量假设。
Cloud Vision
Cloud Storage
Pub/Sub
Cloud Run
1. 每月 15,000 次 Cloud Vision 标签检测 API 调用
2. 100 GiB 月存储空间
3. 一个 1.25 GiB 的 CPU
4.每天通过 Pub/Sub 发布 4 GiB
$27.36
Document AI
Cloud Storage
BigQuery
Cloud Functions
1. 每月 1,000 次 Document AI 表单解析器 API 调用
2.100 GiB 月存储空间
3. 每月 1 TiB 查询
4. RAM:512 MB,CPU:800 MHz
$71.87
Cloud Vision
Cloud Storage
Pub/Sub
Cloud Run
1. 每月 15,000 次 Cloud Vision OCR API 调用
2.100 GiB 月存储空间
3. 一个 1.25 GiB 的 CPU
4.每天通过 Pub/Sub 发布 4 GiB
$27.36
请参阅 Document AI、Vision API 和 AutoML 的完整单位价格详情。