试用 Gemini 3，这是 Gemini Enterprise Agent Platform 中最适合推理、编码和多模态理解的模型

Vision AI

从图片、文档和视频提取分析洞见

通过 API 使用高级视觉模型，以自动执行视觉任务、简化分析并发掘富有实用价值的分析洞见。您也可以在托管式环境中，无需进行代码模型训练即可构建自定义应用，且费用低廉。

新客户最高可获享 $300 赠金，用于试用 Vision AI 和其他 Google Cloud 产品。

您还可以尝试部署 Google 推荐的文档摘要和 AI/机器学习图片处理解决方案。

概览

什么是计算机视觉？

计算机视觉属于人工智能 (AI) 的一个子领域。借助这一技术，计算机和系统能够解释和分析视觉数据，并从数字图片、视频和其他视觉输入内容中提取有意义的信息。它的一些典型实际应用包括：对象检测、视觉内容（图片、文档、视频）处理、理解和分析、商品搜索、图片分类和搜索，以及内容审核。

先进的多模态生成式 AI

Google Cloud 的 Gemini Enterprise Agent Platform 支持使用 Gemini，这是一个先进的多模态模型系列，能够理解几乎任何输入、组合不同类型的信息，以及生成几乎任何输出。

以视觉为中心的生成式 AI

Agent Platform 上的 Imagen 通过 API 为应用开发者提供了 Google 先进的图片生成式 AI 功能。它的一些主要功能包括：带有文本提示的图片生成、带有文本提示的图片修改、以文本形式描述图片，以及主题模型微调。

即用型 Vision AI

Cloud Vision API 由 Google 预训练的计算机视觉机器学习模型提供支持，是一个现成的 API（REST 和 RPC），可让开发者轻松将常见的视觉检测功能集成到应用中，包括为图片加标签、人脸和地标检测、光学字符识别 (OCR) 以及露骨内容标记等。

对图片使用的每一项功能即是一个计费单元。Cloud Vision API 每月提供 1,000 个功能单元的免费使用量。请参阅价格详情。

文档理解生成式 AI

Document AI 是一个文档理解平台，它将计算机视觉与自然语言处理等其他技术相结合，可从扫描的文档中提取文本和数据，从而将非结构化数据转换为结构化信息和业务数据洞见。

它提供了各种预训练处理器，并针对不同类型的文档进行了优化。此外，它还让您能够通过 Document AI Workbench 轻松构建自定义处理器，以对文档进行分类、拆分，并从中提取结构化数据。

Document AI 简介

4:37

现成可用于视频的 Vision AI

Video Intelligence API 以计算机视觉技术为核心，可轻松处理、分析和理解视频内容。

它经过预训练的机器学习模型可自动识别静态存储视频和流式传输视频中的大量对象、地点和动作，品质极为出色。对于常见使用场景（例如内容审核和推荐、媒体内容归档和内容相关广告），该服务非常高效。您还可以使用 Agent Platform Vision 训练自定义机器学习模型，以满足您的特定需求。

演示：如何使用 Video Intelligence API 创建可搜索的视频归档

6:21

数据隐私权和安全性

Google Cloud 提供业界领先的功能，方便您（我们的客户）掌控自己的数据并深入了解数据的访问时间和方式。

作为 Google Cloud 客户，您的客户数据归您所有。我们实行严格的安全措施来保护客户数据，并为您提供各种工具和功能，让您能够根据自己的需求来控制这些数据。客户数据是您的数据，而不是 Google 的数据。我们仅会根据您的协议来处理您的数据。

如需了解详情，请访问我们的隐私权资源中心。

比较计算机视觉产品

产品	支持的设备	主要特性
Cloud Vision API	快速轻松地集成基本视觉功能。	预构建功能，例如为图片加标签、人脸和地标检测、OCR、安全搜索。经济高效，按用量付费。
Document AI	从扫描的文档和图片中提取数据洞见，自动执行文档工作流。	OCR（由生成式 AI 赋能）、NLP、机器学习，用于文档理解、文本提取、实体识别、文档分类。
Video Intelligence API	视频内容分析、内容审核和推荐、媒体内容归档以及内容相关广告。	对象检测和跟踪、场景理解、运动状态识别、人脸检测和分析、文本检测和识别。
Gemini Enterprise Agent Platform 上的 Imagen	获取自动图片说明。图片分类和搜索。内容审核和推荐。	图片生成、图片修改、视觉标注和多模态嵌入。查看功能的完整列表及其发布阶段。

这些产品针对不同用途进行了优化，可让您利用预训练的机器学习模型快速上手，并能轻松进行微调。

Cloud Vision API

支持的设备

快速轻松地集成基本视觉功能。

主要特性

预构建功能，例如为图片加标签、人脸和地标检测、OCR、安全搜索。

经济高效，按用量付费。

Document AI

支持的设备

从扫描的文档和图片中提取数据洞见，自动执行文档工作流。

主要特性

OCR（由生成式 AI 赋能）、NLP、机器学习，用于文档理解、文本提取、实体识别、文档分类。

Video Intelligence API

支持的设备

视频内容分析、内容审核和推荐、媒体内容归档以及内容相关广告。

主要特性

对象检测和跟踪、场景理解、运动状态识别、人脸检测和分析、文本检测和识别。

Gemini Enterprise Agent Platform 上的 Imagen

支持的设备

获取自动图片说明。

图片分类和搜索。

内容审核和推荐。

主要特性

图片生成、图片修改、视觉标注和多模态嵌入。

查看功能的完整列表及其发布阶段。

这些产品针对不同用途进行了优化，可让您利用预训练的机器学习模型快速上手，并能轻松进行微调。

工作方式

Google Cloud 的 Vision AI 工具套件将计算机视觉与其他技术相结合，可理解和分析视频，并可在应用中轻松集成视觉检测功能，包括图片标记、人脸和地标检测、光学字符识别 (OCR) 以及露骨内容的标记等。
这些工具可通过 API 使用，同时仍可根据具体需求进行自定义。

计算机视觉的工作原理

演示

了解计算机视觉如何处理您自己的文件

常见用途

检测原始文件中的文本并自动生成摘要

使用生成式 AI 创建大量文档的摘要

右侧架构图中描绘的解决方案部署了一个流水线，当您将新的 PDF 文档添加到 Cloud Storage 存储桶时，系统会触发该流水线。流水线会从文档中提取文本，根据提取的文本创建摘要，并将摘要存储在数据库中，供您查看和搜索。

您可以通过 Jupyter 笔记本上传文件，也可以直接在 Google Cloud 控制台中上传到 Cloud Storage，从而调用相应应用。

参考架构：使用生成式 AI 创建文档摘要

预计部署时间：11 分钟（配置需 1 分钟，部署需 10 分钟）。

方法指南

使用生成式 AI 创建大量文档的摘要

右侧架构图中描绘的解决方案部署了一个流水线，当您将新的 PDF 文档添加到 Cloud Storage 存储桶时，系统会触发该流水线。流水线会从文档中提取文本，根据提取的文本创建摘要，并将摘要存储在数据库中，供您查看和搜索。

您可以通过 Jupyter 笔记本上传文件，也可以直接在 Google Cloud 控制台中上传到 Cloud Storage，从而调用相应应用。

参考架构：使用生成式 AI 创建文档摘要

预计部署时间：11 分钟（配置需 1 分钟，部署需 10 分钟）。

构建图片处理流水线

在无服务器架构上进行可伸缩的图片处理

右侧图表中描绘的解决方案使用预训练的机器学习模型，来分析用户提供的图片并生成图片注解。部署此解决方案后，系统会创建图片处理服务，帮助您处理用户生成的不安全或有害内容、对实体文档中的文本进行数字化处理、检测图片中的对象并对其进行分类等。

您将能够查看配置和安全设置，了解如何根据不同需求调整图片处理服务。

预计部署时间：12 分钟（配置需 2 分钟，部署需 10 分钟）。

方法指南

在无服务器架构上进行可伸缩的图片处理

右侧图表中描绘的解决方案使用预训练的机器学习模型，来分析用户提供的图片并生成图片注解。部署此解决方案后，系统会创建图片处理服务，帮助您处理用户生成的不安全或有害内容、对实体文档中的文本进行数字化处理、检测图片中的对象并对其进行分类等。

您将能够查看配置和安全设置，了解如何根据不同需求调整图片处理服务。

预计部署时间：12 分钟（配置需 2 分钟，部署需 10 分钟）。

利用生成式 AI 获取自动图片说明

借助 Imagen 的视觉标注功能，您可以为图片生成相关说明、获取有关图片的更详细的元数据以便存储和搜索、生成自动图片说明以便为无障碍应用场景提供支持，以及接收产品和视觉资产的简要说明。

此功能支持英语、法语、德语、意大利语和西班牙语，可通过 Google Cloud 控制台或 API 调用访问。

方法指南

借助 Imagen 的视觉标注功能，您可以为图片生成相关说明、获取有关图片的更详细的元数据以便存储和搜索、生成自动图片说明以便为无障碍应用场景提供支持，以及接收产品和视觉资产的简要说明。

此功能支持英语、法语、德语、意大利语和西班牙语，可通过 Google Cloud 控制台或 API 调用访问。

使用生成式 AI 从文档中提取文本和分析洞见

利用 Document AI 从细节丰富的文档中挖掘数据洞见

Document AI 自定义提取器由基础模型提供支持，可以更快、更准确地从通用和特定领域文档中提取文本和数据。只需 5-10 份文档即可轻松进行微调，进一步提升性能。

如果您想训练自己的模型，可以使用基础模型为数据集自动添加标签，从而更快地投入生产。

您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表。

方法指南

利用 Document AI 从细节丰富的文档中挖掘数据洞见

Document AI 自定义提取器由基础模型提供支持，可以更快、更准确地从通用和特定领域文档中提取文本和数据。只需 5-10 份文档即可轻松进行微调，进一步提升性能。

如果您想训练自己的模型，可以使用基础模型为数据集自动添加标签，从而更快地投入生产。

您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表。

价格

Vision AI 定价机制	每种视觉产品都有一组功能或处理器，价格各不相同 - 如需了解详情，请查看详细的价格页面。
免费层级	产品/服务	折扣价	详情
Vision API	前 1,000 个单元每月免费	5,000,001+ 个单元每月	详细的价格页面
Document AI	不适用价格因处理器而异。	5,000,001+ 页 Enterprise Document OCR 处理器每月	详细的价格页面
Video Intelligence API	前 1,000 分钟每月免费	100,000+ 分钟每月	详细的价格页面
Imagen - 多模态嵌入			0.0001 美元每张图片输入
Imagen - 视觉标注			0.0015 美元每张图片
Gemini Pro Vision			详细的价格页面

Vision AI 定价机制

每种视觉产品都有一组功能或处理器，价格各不相同 - 如需了解详情，请查看详细的价格页面。

Vision API

产品/服务

前 1,000 个单元

每月免费

折扣价

5,000,001+ 个单元

每月

详情

详细的价格页面

Document AI

产品/服务

不适用

价格因处理器而异。

折扣价

5,000,001+ 页

Enterprise Document OCR 处理器每月

详情

详细的价格页面

Video Intelligence API

产品/服务

前 1,000 分钟

每月免费

折扣价

100,000+ 分钟

每月

详情

详细的价格页面

Imagen - 多模态嵌入

产品/服务

折扣价

详情

0.0001 美元

每张图片输入

Imagen - 视觉标注

产品/服务

折扣价

详情

0.0015 美元

每张图片

Gemini Pro Vision

产品/服务

折扣价

详情

详细的价格页面

价格计算器

将您需要的所有工具汇集到一个地方来估算项目费用。

定制报价

请与我们的销售团队联系，获取针对贵组织的独特需求量身定制的报价。

Vision AI

从图片、文档和视频提取分析洞见

亮点

什么是计算机视觉？

先进的多模态生成式 AI

以视觉为中心的生成式 AI

即用型 Vision AI

文档理解生成式 AI

现成可用于视频的 Vision AI

数据隐私权和安全性

了解计算机视觉如何处理您自己的文件

检测原始文件中的文本并自动生成摘要

使用生成式 AI 创建大量文档的摘要

方法指南

使用生成式 AI 创建大量文档的摘要

构建图片处理流水线

在无服务器架构上进行可伸缩的图片处理

方法指南

在无服务器架构上进行可伸缩的图片处理

利用生成式 AI 获取自动图片说明

方法指南

使用生成式 AI 从文档中提取文本和分析洞见

利用 Document AI 从细节丰富的文档中挖掘数据洞见

方法指南

利用 Document AI 从细节丰富的文档中挖掘数据洞见

价格计算器

定制报价

开始概念验证

新客户最高可获享 $300 赠金，用于试用 Vision AI 和其他 Google Cloud 产品

每月使用 Document OCR 免费处理 1,000 页

了解如何使用 Video Intelligence API 流式传输实时视频

了解如何在 Gemini Enterprise Agent Platform 中构建对象检测器应用

获取 Vision API 的代码示例