Vision AI

从图片、文档和视频中提取数据洞见

通过 API 使用高级视觉模型,以自动执行视觉任务、简化分析并发掘富有实用价值的分析洞见。您也可以在托管式环境中,无需进行代码模型训练即可构建自定义应用,且费用低廉。

新客户最高可获享 $300 赠金,用于试用 Vision AI 和其他 Google Cloud 产品。

您还可以尝试部署 Google 推荐的文档摘要AI/机器学习图片处理解决方案。

概览

什么是计算机视觉?

计算机视觉是人工智能 (AI) 的一个领域,使计算机和系统能够解释和分析视觉数据,并从数字图像、视频和其他视觉输入中提取有意义的信息。它的一些典型真实应用包括:对象检测、视觉内容(图片、文档、视频)处理、理解和分析、产品搜索、图片分类和搜索以及内容审核。

高级多模态生成式 AI

Google Cloud 的 Vertex AI 支持使用 Gemini,这是一个先进的多模态模型系列,能够理解几乎任何输入、组合不同类型的信息,以及生成几乎任何输出。Gemini 最适合处理视觉、文本和代码混合方面的任务,而 Gemini Pro Vision 则擅长各种与视觉相关的任务,例如物体识别、数字内容理解和字幕/说明。可以通过 API 访问。

聚焦视觉的生成式 AI

Imagen on Vertex AI 通过 API 为应用开发者提供 Google 先进的图像生成式 AI 功能。它的一些主要功能包括:带有文本提示的生成图片(受限的正式版)、带有文本提示的图片修改(受限的正式版)、以文本形式描述图片(也称为“视觉标注”,正式版),以及主题模型微调(受限的正式版)。详细了解主要功能和发布阶段

现成可用的 Vision AI

Cloud Vision API 基于 Google 的预训练计算机视觉机器学习模型,是一个现成的 API(REST 和 RPC),让开发者能够轻松地将常见的视觉检测功能集成到应用中,包括图片标记、人脸和地标检测、光学字符识别 (OCR) 以及露骨内容的标记。

您应用于图片的每个特征都是一个计费单元。借助 Cloud Vision API,您每月可以免费使用 1,000 个单元的特征。请参阅价格详情

文档理解生成式 AI

Document AI 是一个文档理解平台,结合了计算机视觉和其他技术(例如自然语言处理),以从扫描文档中提取文本和数据,将非结构化数据转换为结构化信息和业务数据洞见。

它提供各种预训练处理器,这些处理器针对不同类型的文档进行了优化。借助 Document AI Workbench,您还可以轻松构建自定义处理器,以对文档进行分类、拆分和提取结构化数据。

现成可用于视频的 Vision AI

Video Intelligence API 以计算机视觉技术为核心,可让您轻松处理、分析和理解视频内容。

其预训练的机器学习模型可自动识别存储视频和流式视频中的大量对象、地点和动作,且具有卓越的质量。它对于常见应用场景(如内容审核和推荐、媒体归档和内容相关广告)而言非常高效。您还可以使用 Vertex AI Vision 训练自定义机器学习模型,以满足您的特定需求。

视觉检测 AI

Visual Inspection AI 可在制造业和其他工业环境中自动执行视觉检测任务。它利用先进的计算机视觉和深度学习技术来分析图片和视频、识别异常、检测和定位缺陷,以及检查组装产品中缺失和缺陷零部件。

您无需技术专业知识、只需极少标记的图片就能训练自定义模型,在生产线上高效运行推理,并使用工厂车间的最新数据持续刷新模型。

统一的 Vision AI Platform

Vertex AI Vision 是一个全托管式应用开发环境,让开发者可以轻松构建、部署和管理计算机视觉应用,以处理各种数据模式,例如文本、图像、视频和表格数据。它将构建时间从几天缩短到几分钟,而成本只有当前产品的十分之一。

您可以构建和部署自己的自定义模型,并使用 CI/CD 流水线管理和扩缩这些模型。它还与 TensorFlow 和 PyTorch 等热门开源工具集成。

数据隐私权和安全性

Google Cloud 提供业界领先的功能,方便您(我们的客户)掌控自己的数据并深入了解数据的访问时间和方式。

作为 Google Cloud 客户,您的客户数据归您所有。我们实行严格的安全措施来保护客户数据,并为您提供各种工具和功能,让您能够根据自己的需求来控制这些数据。客户数据是您的数据,而不是 Google 的数据。我们仅会根据您的协议来处理您的数据。

如需了解详情,请访问我们的隐私权资源中心

比较计算机视觉产品

提供的服务适用场景主要特性

快速轻松地集成基本视觉功能。

预构建的功能,例如为图片加标签、人脸和地标检测、OCR、安全搜索。

经济高效,按用量付费。

从扫描的文档和图片中提取数据洞见,实现文档工作流程自动化。

OCR(由生成式 AI 提供支持)、NLP、使用机器学习进行文档理解、文本提取、实体识别和文档分类。

分析视频内容、内容审核与推荐、媒体归档和内容相关广告。

对象检测和跟踪、场景理解、运动状态识别、人脸检测与分析、文本检测与识别。

在制造业和工业环境中自动执行视觉检测任务

检测异常情况,检测和定位缺陷,以及检查组装。

针对特定需求构建和部署自定义模型。

数据准备工具、模型训练和部署,让您可以完全掌控自己的解决方案。需要专业技术知识。

直观分析和理解、多模态问答。

信息搜寻、对象识别、数字内容理解、结构化内容生成、字幕/说明和推断。

获取自动生成的图片描述。

图像分类和搜索。

内容管理和建议。

图像生成、图像编辑、视觉标注和多模态嵌入。

请参阅功能及其发布阶段的完整列表

这些产品针对不同用途进行了优化,让您可以充分利用预训练的机器学习模型并开始运行,并能够轻松进行微调。

适用场景

快速轻松地集成基本视觉功能。

主要特性

预构建的功能,例如为图片加标签、人脸和地标检测、OCR、安全搜索。

经济高效,按用量付费。

适用场景

从扫描的文档和图片中提取数据洞见,实现文档工作流程自动化。

主要特性

OCR(由生成式 AI 提供支持)、NLP、使用机器学习进行文档理解、文本提取、实体识别和文档分类。

适用场景

分析视频内容、内容审核与推荐、媒体归档和内容相关广告。

主要特性

对象检测和跟踪、场景理解、运动状态识别、人脸检测与分析、文本检测与识别。

适用场景

在制造业和工业环境中自动执行视觉检测任务

主要特性

检测异常情况,检测和定位缺陷,以及检查组装。

适用场景

针对特定需求构建和部署自定义模型。

主要特性

数据准备工具、模型训练和部署,让您可以完全掌控自己的解决方案。需要专业技术知识。

适用场景

直观分析和理解、多模态问答。

主要特性

信息搜寻、对象识别、数字内容理解、结构化内容生成、字幕/说明和推断。

适用场景

获取自动生成的图片描述。

图像分类和搜索。

内容管理和建议。

主要特性

图像生成、图像编辑、视觉标注和多模态嵌入。

请参阅功能及其发布阶段的完整列表

这些产品针对不同用途进行了优化,让您可以充分利用预训练的机器学习模型并开始运行,并能够轻松进行微调。

工作方式

Google Cloud 的 Vision AI 工具套件将计算机视觉与其他技术相结合,可理解和分析视频,并可在应用中轻松集成视觉检测功能,包括图片标记、人脸和地标检测、光学字符识别 (OCR) 以及露骨内容的标记等。

这些工具可通过 API 使用,同时仍可针对特定需求进行自定义。

视频标题《计算机视觉的工作原理》旁边的女士

演示

了解计算机视觉技术如何处理您自己的文件

常见用途

检测原始文件中的文本并自动总结

使用生成式 AI 生成大型文档摘要

右侧架构图中描绘的解决方案部署了一个流水线,当您将新的 PDF 文档添加到 Cloud Storage 存储桶时,系统会触发该流水线。流水线会从文档中提取文本,根据提取的文本创建摘要,并将摘要存储在数据库中以供查看和搜索。

您可以通过 Jupyter Notebook 上传文件,也可以直接在 Google Cloud 控制台中将文件上传至 Cloud Storage,以调用该应用。

使用生成式 AI 获取文档摘要的参考架构

预计部署时间:11 分钟(配置 1 分钟,部署 10 分钟)。

使用生成式 AI 生成大型文档摘要

右侧架构图中描绘的解决方案部署了一个流水线,当您将新的 PDF 文档添加到 Cloud Storage 存储桶时,系统会触发该流水线。流水线会从文档中提取文本,根据提取的文本创建摘要,并将摘要存储在数据库中以供查看和搜索。

您可以通过 Jupyter Notebook 上传文件,也可以直接在 Google Cloud 控制台中将文件上传至 Cloud Storage,以调用该应用。

使用生成式 AI 获取文档摘要的参考架构

预计部署时间:11 分钟(配置 1 分钟,部署 10 分钟)。

构建图片处理流水线

无服务器架构上的可伸缩图片处理

右图所示的解决方案使用预训练的机器学习模型来分析用户提供的图片并生成图片注释。部署此解决方案后,系统会创建图片处理服务,帮助您处理用户生成的不安全或有害内容、对实体文档中的文本进行数字化处理、检测图片中的对象并对其进行分类等。

您可以查看配置和安全设置,了解如何根据不同的需求调整图片处理服务。

参考架构 - 图像处理流水线

预计部署时间:12 分钟(配置 2 分钟,部署 10 分钟)。

无服务器架构上的可伸缩图片处理

右图所示的解决方案使用预训练的机器学习模型来分析用户提供的图片并生成图片注释。部署此解决方案后,系统会创建图片处理服务,帮助您处理用户生成的不安全或有害内容、对实体文档中的文本进行数字化处理、检测图片中的对象并对其进行分类等。

您可以查看配置和安全设置,了解如何根据不同的需求调整图片处理服务。

参考架构 - 图像处理流水线

预计部署时间:12 分钟(配置 2 分钟,部署 10 分钟)。

利用生成式 AI 获取自动生成的图片描述

借助 Imagen视觉标注功能,您可以为图片生成相关说明、获取有关图片的更详细的元数据以便存储和搜索、生成自动图片说明以便为无障碍应用场景提供支持,以及接收产品和视觉资产的简要说明。

此功能支持英语、法语、德语、意大利语和西班牙语,可在 Google Cloud 控制台中或通过 API 调用访问。

借助 Imagen视觉标注功能,您可以为图片生成相关说明、获取有关图片的更详细的元数据以便存储和搜索、生成自动图片说明以便为无障碍应用场景提供支持,以及接收产品和视觉资产的简要说明。

此功能支持英语、法语、德语、意大利语和西班牙语,可在 Google Cloud 控制台中或通过 API 调用访问。

流式处理视频

利用 Vertex AI Vision 从流式视频中获取数据洞见

在使用应用分析视频数据之前,请使用 Vertex AI Vision 中的 Streams 服务为连续的数据流创建流水线。注入的数据随后会由 Google 的预训练模型或您的自定义模型进行分析。然后,流的分析输出会存储在 Vertex AI Vision Warehouse 中,您可以使用 AI 赋能的高级搜索功能来查询非结构化媒体内容。

参考架构 - 如何使用 VertexAI Vision 和其他 Google Cloud 工具流式传输处理视频

利用 Vertex AI Vision 从流式视频中获取数据洞见

在使用应用分析视频数据之前,请使用 Vertex AI Vision 中的 Streams 服务为连续的数据流创建流水线。注入的数据随后会由 Google 的预训练模型或您的自定义模型进行分析。然后,流的分析输出会存储在 Vertex AI Vision Warehouse 中,您可以使用 AI 赋能的高级搜索功能来查询非结构化媒体内容。

参考架构 - 如何使用 VertexAI Vision 和其他 Google Cloud 工具流式传输处理视频

使用生成式 AI 从文档中提取文本和数据洞见

利用 Document AI 从细节丰富的文档中挖掘数据洞见

借助基础模型,Document AI Custom Extractor 能够更快速、更准确地从通用文档和特定领域的文档中提取文本和数据。只需 5-10 个文档即可轻松进行微调,以实现更好的效果。

如果您想训练自己的模型,可使用基础模型为数据集自动添加标签,以加快投入生产的速度。

您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表

利用 Document AI 从细节丰富的文档中挖掘数据洞见

借助基础模型,Document AI Custom Extractor 能够更快速、更准确地从通用文档和特定领域的文档中提取文本和数据。只需 5-10 个文档即可轻松进行微调,以实现更好的效果。

如果您想训练自己的模型,可使用基础模型为数据集自动添加标签,以加快投入生产的速度。

您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表

高精度目视检测

利用 Visual Inspection AI 自动执行质量检查

Visual Inspection AI 在每一步都经过了优化,因此设置起来十分简单,而且很快就能看到投资回报。与通用机器学习平台相比,用于开始训练高性能检查模型的已加标签图像数量减少了多达 300 倍,事实证明,准确率可提高多达 10 倍。即使没有技术专业知识,您也可以训练模型,并且这些模型在本地运行。最棒的是,这些模型可以随着来自工厂车间的数据流不断刷新,从而在您发现新的应用场景时提高准确性。

使用 Visual Inspection AI 的质量检查参考架构

利用 Visual Inspection AI 自动执行质量检查

Visual Inspection AI 在每一步都经过了优化,因此设置起来十分简单,而且很快就能看到投资回报。与通用机器学习平台相比,用于开始训练高性能检查模型的已加标签图像数量减少了多达 300 倍,事实证明,准确率可提高多达 10 倍。即使没有技术专业知识,您也可以训练模型,并且这些模型在本地运行。最棒的是,这些模型可以随着来自工厂车间的数据流不断刷新,从而在您发现新的应用场景时提高准确性。

使用 Visual Inspection AI 的质量检查参考架构

价格

Vision AI 定价方式每个视觉产品都有一组价格不同的功能或处理器。如需了解详情,请查看详细的价格页面。
免费层级产品/服务折扣价详情

Vision API

前 1,000 个单元

每月免费

5,000,001+ 个单元

每月

Document AI

不适用

价格因处理器而异。

5,000,001+ 页

每月 Enterprise Document OCR 处理器

Video Intelligence API

前 1,000 分钟

每月免费

100,000+ 分钟

每月

Vertex AI Vision

不适用

价格因功能而异。

Imagen - 多模态嵌入

0.0001 美元

每个图片输入

Imagen - 视觉标注

0.0015 美元

每张图片

Gemini Pro Vision

Vision AI 定价方式

每个视觉产品都有一组价格不同的功能或处理器。如需了解详情,请查看详细的价格页面。

Vision API

产品/服务

前 1,000 个单元

每月免费

折扣价

5,000,001+ 个单元

每月

详情

Document AI

产品/服务

不适用

价格因处理器而异。

折扣价

5,000,001+ 页

每月 Enterprise Document OCR 处理器

详情
Video Intelligence API
产品/服务

前 1,000 分钟

每月免费

折扣价

100,000+ 分钟

每月

详情

Vertex AI Vision

产品/服务

不适用

价格因功能而异。

折扣价

详情

Imagen - 多模态嵌入

产品/服务

折扣价

详情

0.0001 美元

每个图片输入

Imagen - 视觉标注

产品/服务

折扣价

详情

0.0015 美元

每张图片

Gemini Pro Vision

产品/服务
折扣价
详情

价格计算器

将您需要的所有工具汇集到一个地方来估算项目费用。

定制报价

请与我们的销售团队联系,获取针对贵组织的独特需求量身定制的报价。

开始概念验证

新客户最高可获享 $300 赠金,用于试用 Vision AI 和其他 Google Cloud 产品

每月使用 Document OCR 免费处理 1,000 页

了解如何使用 Video Intelligence API 流式传输实时视频

了解如何在 Vertex AI Vision 中构建对象检测器应用

获取 Vision API 的代码示例

Cloud Vision API
Google Cloud