通过 API 使用高级视觉模型,以自动执行视觉任务、简化分析并发掘富有实用价值的分析洞见。您也可以在托管式环境中,无需进行代码模型训练即可构建自定义应用,且费用低廉。
新客户最高可获享 $300 赠金,用于试用 Vision AI 和其他 Google Cloud 产品。
您还可以尝试部署 Google 推荐的文档摘要和 AI/机器学习图片处理解决方案。
概览
计算机视觉属于人工智能 (AI) 的一个子领域。借助这一技术,计算机和系统能够解释和分析视觉数据,并从数字图片、视频和其他视觉输入内容中提取有意义的信息。它的一些典型实际应用包括:对象检测、视觉内容(图片、文档、视频)处理、理解和分析、商品搜索、图片分类和搜索,以及内容审核。
Google Cloud 的 Gemini Enterprise Agent Platform 支持使用 Gemini,这是一个先进的多模态模型系列,能够理解几乎任何输入、组合不同类型的信息,以及生成几乎任何输出。
Cloud Vision API 由 Google 预训练的计算机视觉机器学习模型提供支持,是一个现成的 API(REST 和 RPC),可让开发者轻松将常见的视觉检测功能集成到应用中,包括为图片加标签、人脸和地标检测、光学字符识别 (OCR) 以及露骨内容标记等。
对图片使用的每一项功能即是一个计费单元。Cloud Vision API 每月提供 1,000 个功能单元的免费使用量。请参阅价格详情。
Document AI 是一个文档理解平台,它将计算机视觉与自然语言处理等其他技术相结合,可从扫描的文档中提取文本和数据,从而将非结构化数据转换为结构化信息和业务数据洞见。
它提供了各种预训练处理器,并针对不同类型的文档进行了优化。此外,它还让您能够通过 Document AI Workbench 轻松构建自定义处理器,以对文档进行分类、拆分,并从中提取结构化数据。
Video Intelligence API 以计算机视觉技术为核心,可轻松处理、分析和理解视频内容。
它经过预训练的机器学习模型可自动识别静态存储视频和流式传输视频中的大量对象、地点和动作,品质极为出色。对于常见使用场景(例如内容审核和推荐、媒体内容归档和内容相关广告),该服务非常高效。您还可以使用 Agent Platform Vision 训练自定义机器学习模型,以满足您的特定需求。
Visual Inspection AI 可自动执行制造和其他工业环境中的视觉检测任务。它利用先进的计算机视觉和深度学习技术来分析图像和视频,识别异常情况,检测和定位缺陷,并检查组装产品中缺失和有缺陷的部件。
您无需技术专业知识、只需极少标记的图片就能训练自定义模型,在生产线上高效运行推理,并使用工厂车间的最新数据持续刷新模型。
Google Cloud 提供业界领先的功能,方便您(我们的客户)掌控自己的数据并深入了解数据的访问时间和方式。
作为 Google Cloud 客户,您的客户数据归您所有。我们实行严格的安全措施来保护客户数据,并为您提供各种工具和功能,让您能够根据自己的需求来控制这些数据。客户数据是您的数据,而不是 Google 的数据。我们仅会根据您的协议来处理您的数据。
如需了解详情,请访问我们的隐私权资源中心。
比较计算机视觉产品
| 产品 | 支持的设备 | 主要特性 |
|---|---|---|
快速轻松地集成基本视觉功能。 | 预构建功能,例如为图片加标签、人脸和地标检测、OCR、安全搜索。 经济高效,按用量付费。 | |
从扫描的文档和图片中提取数据洞见,自动执行文档工作流。 | OCR(由生成式 AI 赋能)、NLP、机器学习,用于文档理解、文本提取、实体识别、文档分类。 | |
视频内容分析、内容审核和推荐、媒体内容归档以及内容相关广告。 | 对象检测和跟踪、场景理解、运动状态识别、人脸检测和分析、文本检测和识别。 | |
在制造业和工业环境中自动执行视觉检查任务 | 检测异常、检测和定位缺陷以及检查装配。 | |
获取自动图片说明。 图片分类和搜索。 内容审核和推荐。 | 图片生成、图片修改、视觉标注和多模态嵌入。 查看功能的完整列表及其发布阶段。 |
这些产品针对不同用途进行了优化,可让您利用预训练的机器学习模型快速上手,并能轻松进行微调。
这些产品针对不同用途进行了优化,可让您利用预训练的机器学习模型快速上手,并能轻松进行微调。
演示
右侧架构图中描绘的解决方案部署了一个流水线,当您将新的 PDF 文档添加到 Cloud Storage 存储桶时,系统会触发该流水线。流水线会从文档中提取文本,根据提取的文本创建摘要,并将摘要存储在数据库中,供您查看和搜索。
您可以通过 Jupyter 笔记本上传文件,也可以直接在 Google Cloud 控制台中上传到 Cloud Storage,从而调用相应应用。
预计部署时间:11 分钟(配置需 1 分钟,部署需 10 分钟)。
右侧架构图中描绘的解决方案部署了一个流水线,当您将新的 PDF 文档添加到 Cloud Storage 存储桶时,系统会触发该流水线。流水线会从文档中提取文本,根据提取的文本创建摘要,并将摘要存储在数据库中,供您查看和搜索。
您可以通过 Jupyter 笔记本上传文件,也可以直接在 Google Cloud 控制台中上传到 Cloud Storage,从而调用相应应用。
预计部署时间:11 分钟(配置需 1 分钟,部署需 10 分钟)。
右侧图表中描绘的解决方案使用预训练的机器学习模型,来分析用户提供的图片并生成图片注解。部署此解决方案后,系统会创建图片处理服务,帮助您处理用户生成的不安全或有害内容、对实体文档中的文本进行数字化处理、检测图片中的对象并对其进行分类等。
您将能够查看配置和安全设置,了解如何根据不同需求调整图片处理服务。
预计部署时间:12 分钟(配置需 2 分钟,部署需 10 分钟)。
右侧图表中描绘的解决方案使用预训练的机器学习模型,来分析用户提供的图片并生成图片注解。部署此解决方案后,系统会创建图片处理服务,帮助您处理用户生成的不安全或有害内容、对实体文档中的文本进行数字化处理、检测图片中的对象并对其进行分类等。
您将能够查看配置和安全设置,了解如何根据不同需求调整图片处理服务。
预计部署时间:12 分钟(配置需 2 分钟,部署需 10 分钟)。
Document AI 自定义提取器由基础模型提供支持,可以更快、更准确地从通用和特定领域文档中提取文本和数据。只需 5-10 份文档即可轻松进行微调,进一步提升性能。
如果您想训练自己的模型,可以使用基础模型为数据集自动添加标签,从而更快地投入生产。
您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表。
Document AI 自定义提取器由基础模型提供支持,可以更快、更准确地从通用和特定领域文档中提取文本和数据。只需 5-10 份文档即可轻松进行微调,进一步提升性能。
如果您想训练自己的模型,可以使用基础模型为数据集自动添加标签,从而更快地投入生产。
您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表。
Visual Inspection AI 在每一步都经过了优化,因此设置起来十分简单,而且很快就能看到投资回报。与通用机器学习平台相比,该平台只需使用三百分之一的带标签图片即可开始训练高性能检查模型,并且事实证明准确率可提高到 10 倍之多。您无需技术专业知识即可训练模型,并且模型在本地运行。最重要的是,这些模型可以根据从工厂车间传输的数据不断刷新,让您在探索新应用场景时获得更高的准确性。
Visual Inspection AI 在每一步都经过了优化,因此设置起来十分简单,而且很快就能看到投资回报。与通用机器学习平台相比,该平台只需使用三百分之一的带标签图片即可开始训练高性能检查模型,并且事实证明准确率可提高到 10 倍之多。您无需技术专业知识即可训练模型,并且模型在本地运行。最重要的是,这些模型可以根据从工厂车间传输的数据不断刷新,让您在探索新应用场景时获得更高的准确性。
价格
| Vision AI 定价机制 | 每种视觉产品都有一组功能或处理器,价格各不相同 - 如需了解详情,请查看详细的价格页面。 | ||
|---|---|---|---|
| 免费层级 | 产品/服务 | 折扣价 | 详情 |
Vision API | 前 1,000 个单元 每月免费 | 5,000,001+ 个单元 每月 | |
Document AI | 不适用 价格因处理器而异。 | 5,000,001+ 页 Enterprise Document OCR 处理器每月 | |
Video Intelligence API | 前 1,000 分钟 每月免费 | 100,000+ 分钟 每月 | |
Imagen - 多模态嵌入 |
|
| 0.0001 美元 每张图片输入 |
Imagen - 视觉标注 |
|
| 0.0015 美元 每张图片 |
Gemini Pro Vision | |||
Vision AI 定价机制
每种视觉产品都有一组功能或处理器,价格各不相同 - 如需了解详情,请查看详细的价格页面。
Imagen - 多模态嵌入
0.0001 美元
每张图片输入
Imagen - 视觉标注
0.0015 美元
每张图片