通过 API 使用高级视觉模型,以自动执行视觉任务、简化分析并发掘富有实用价值的分析洞见。您也可以在托管式环境中,无需进行代码模型训练即可构建自定义应用,且费用低廉。
新客户最高可获享 $300 赠金,用于试用 Vision AI 和其他 Google Cloud 产品。
您还可以尝试部署 Google 推荐的文档摘要和 AI/机器学习图片处理解决方案。
概览
计算机视觉是人工智能 (AI) 的一个领域,使计算机和系统能够解释和分析视觉数据,并从数字图像、视频和其他视觉输入中提取有意义的信息。它的一些典型真实应用包括:对象检测、视觉内容(图片、文档、视频)处理、理解和分析、产品搜索、图片分类和搜索以及内容审核。
Google Cloud 的 Vertex AI 支持使用 Gemini,这是一个先进的多模态模型系列,能够理解几乎任何输入、组合不同类型的信息,以及生成几乎任何输出。Gemini 最适合处理视觉、文本和代码混合方面的任务,而 Gemini Pro Vision 则擅长各种与视觉相关的任务,例如物体识别、数字内容理解和字幕/说明。可以通过 API 访问。
Cloud Vision API 基于 Google 的预训练计算机视觉机器学习模型,是一个现成的 API(REST 和 RPC),让开发者能够轻松地将常见的视觉检测功能集成到应用中,包括图片标记、人脸和地标检测、光学字符识别 (OCR) 以及露骨内容的标记。
您应用于图片的每个特征都是一个计费单元。借助 Cloud Vision API,您每月可以免费使用 1,000 个单元的特征。请参阅价格详情。
Document AI 是一个文档理解平台,结合了计算机视觉和其他技术(例如自然语言处理),以从扫描文档中提取文本和数据,将非结构化数据转换为结构化信息和业务数据洞见。
它提供各种预训练处理器,这些处理器针对不同类型的文档进行了优化。借助 Document AI Workbench,您还可以轻松构建自定义处理器,以对文档进行分类、拆分和提取结构化数据。
Video Intelligence API 以计算机视觉技术为核心,可让您轻松处理、分析和理解视频内容。
其预训练的机器学习模型可自动识别存储视频和流式视频中的大量对象、地点和动作,且具有卓越的质量。它对于常见应用场景(如内容审核和推荐、媒体归档和内容相关广告)而言非常高效。您还可以使用 Vertex AI Vision 训练自定义机器学习模型,以满足您的特定需求。
Vision API Product Search 是 Google Cloud Vision AI 工具套件中的一项专用服务,可让用户使用自己的图片搜索商品。您可以将其视为一个针对商品进行了优化的图片搜索引擎,目前支持以下商品类别:家居用品、服装、玩具、包装商品和一般商品。
Visual Inspection AI 可在制造业和其他工业环境中自动执行视觉检测任务。它利用先进的计算机视觉和深度学习技术来分析图片和视频、识别异常、检测和定位缺陷,以及检查组装产品中缺失和缺陷零部件。
您无需技术专业知识、只需极少标记的图片就能训练自定义模型,在生产线上高效运行推理,并使用工厂车间的最新数据持续刷新模型。
Vertex AI Vision 是一个全托管式应用开发环境,让开发者可以轻松构建、部署和管理计算机视觉应用,以处理各种数据模式,例如文本、图像、视频和表格数据。它将构建时间从几天缩短到几分钟,而成本只有当前产品的十分之一。
您可以构建和部署自己的自定义模型,并使用 CI/CD 流水线管理和扩缩这些模型。它还与 TensorFlow 和 PyTorch 等热门开源工具集成。
Google Cloud 提供业界领先的功能,方便您(我们的客户)掌控自己的数据并深入了解数据的访问时间和方式。
作为 Google Cloud 客户,您的客户数据归您所有。我们实行严格的安全措施来保护客户数据,并为您提供各种工具和功能,让您能够根据自己的需求来控制这些数据。客户数据是您的数据,而不是 Google 的数据。我们仅会根据您的协议来处理您的数据。
如需了解详情,请访问我们的隐私权资源中心。
比较计算机视觉产品
提供的服务 | 适用场景 | 主要特性 |
---|---|---|
快速轻松地集成基本视觉功能。 | 预构建的功能,例如为图片加标签、人脸和地标检测、OCR、安全搜索。 经济高效,按用量付费。 | |
从扫描的文档和图片中提取数据洞见,实现文档工作流程自动化。 | OCR(由生成式 AI 提供支持)、NLP、使用机器学习进行文档理解、文本提取、实体识别和文档分类。 | |
分析视频内容、内容审核与推荐、媒体归档和内容相关广告。 | 对象检测和跟踪、场景理解、运动状态识别、人脸检测与分析、文本检测与识别。 | |
基于图片的商品搜索和推荐,可提升电子商务体验。仅限特定商品类别。 | 识别图片中的商品并对其进行分类。 | |
在制造业和工业环境中自动执行视觉检测任务 | 检测异常情况,检测和定位缺陷,以及检查组装。 | |
针对特定需求构建和部署自定义模型。 | 数据准备工具、模型训练和部署,让您可以完全掌控自己的解决方案。需要专业技术知识。 | |
直观分析和理解、多模态问答。 | 信息搜寻、对象识别、数字内容理解、结构化内容生成、字幕/说明和推断。 | |
获取自动生成的图片描述。 图像分类和搜索。 内容管理和建议。 | 图像生成、图像编辑、视觉标注和多模态嵌入。 请参阅功能及其发布阶段的完整列表。 |
这些产品针对不同用途进行了优化,让您可以充分利用预训练的机器学习模型并开始运行,并能够轻松进行微调。
这些产品针对不同用途进行了优化,让您可以充分利用预训练的机器学习模型并开始运行,并能够轻松进行微调。
工作方式
Google Cloud 的 Vision AI 工具套件将计算机视觉与其他技术相结合,可理解和分析视频,并可在应用中轻松集成视觉检测功能,包括图片标记、人脸和地标检测、光学字符识别 (OCR) 以及露骨内容的标记等。
这些工具可通过 API 使用,同时仍可针对特定需求进行自定义。
演示
常见用途
右侧架构图中描绘的解决方案部署了一个流水线,当您将新的 PDF 文档添加到 Cloud Storage 存储桶时,系统会触发该流水线。流水线会从文档中提取文本,根据提取的文本创建摘要,并将摘要存储在数据库中以供查看和搜索。
您可以通过 Jupyter Notebook 上传文件,也可以直接在 Google Cloud 控制台中将文件上传至 Cloud Storage,以调用该应用。
预计部署时间:11 分钟(配置 1 分钟,部署 10 分钟)。
右侧架构图中描绘的解决方案部署了一个流水线,当您将新的 PDF 文档添加到 Cloud Storage 存储桶时,系统会触发该流水线。流水线会从文档中提取文本,根据提取的文本创建摘要,并将摘要存储在数据库中以供查看和搜索。
您可以通过 Jupyter Notebook 上传文件,也可以直接在 Google Cloud 控制台中将文件上传至 Cloud Storage,以调用该应用。
预计部署时间:11 分钟(配置 1 分钟,部署 10 分钟)。
通过 Vision API Product Search,零售商可以创建商品,且创建的每个商品都包含从一组视角直观描述该商品的参考图片。然后,零售商可以将这些商品添加到商品集中。
用户使用自己的图片查询商品集时,Vision API Product Search 会应用机器学习,以比较用户查询图片中的商品与零售商商品集中的图片,然后返回在视觉和语义上类似的结果排序列表。
通过 Vision API Product Search,零售商可以创建商品,且创建的每个商品都包含从一组视角直观描述该商品的参考图片。然后,零售商可以将这些商品添加到商品集中。
用户使用自己的图片查询商品集时,Vision API Product Search 会应用机器学习,以比较用户查询图片中的商品与零售商商品集中的图片,然后返回在视觉和语义上类似的结果排序列表。
右图所示的解决方案使用预训练的机器学习模型来分析用户提供的图片并生成图片注释。部署此解决方案后,系统会创建图片处理服务,帮助您处理用户生成的不安全或有害内容、对实体文档中的文本进行数字化处理、检测图片中的对象并对其进行分类等。
您可以查看配置和安全设置,了解如何根据不同的需求调整图片处理服务。
预计部署时间:12 分钟(配置 2 分钟,部署 10 分钟)。
右图所示的解决方案使用预训练的机器学习模型来分析用户提供的图片并生成图片注释。部署此解决方案后,系统会创建图片处理服务,帮助您处理用户生成的不安全或有害内容、对实体文档中的文本进行数字化处理、检测图片中的对象并对其进行分类等。
您可以查看配置和安全设置,了解如何根据不同的需求调整图片处理服务。
预计部署时间:12 分钟(配置 2 分钟,部署 10 分钟)。
在使用应用分析视频数据之前,请使用 Vertex AI Vision 中的 Streams 服务为连续的数据流创建流水线。注入的数据随后会由 Google 的预训练模型或您的自定义模型进行分析。然后,流的分析输出会存储在 Vertex AI Vision Warehouse 中,您可以使用 AI 赋能的高级搜索功能来查询非结构化媒体内容。
在使用应用分析视频数据之前,请使用 Vertex AI Vision 中的 Streams 服务为连续的数据流创建流水线。注入的数据随后会由 Google 的预训练模型或您的自定义模型进行分析。然后,流的分析输出会存储在 Vertex AI Vision Warehouse 中,您可以使用 AI 赋能的高级搜索功能来查询非结构化媒体内容。
借助基础模型,Document AI Custom Extractor 能够更快速、更准确地从通用文档和特定领域的文档中提取文本和数据。只需 5-10 个文档即可轻松进行微调,以实现更好的效果。
如果您想训练自己的模型,可使用基础模型为数据集自动添加标签,以加快投入生产的速度。
您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表。
借助基础模型,Document AI Custom Extractor 能够更快速、更准确地从通用文档和特定领域的文档中提取文本和数据。只需 5-10 个文档即可轻松进行微调,以实现更好的效果。
如果您想训练自己的模型,可使用基础模型为数据集自动添加标签,以加快投入生产的速度。
您还可以选择使用预训练的专用处理器 - 请参阅处理器的完整列表。
Visual Inspection AI 在每一步都经过了优化,因此设置起来十分简单,而且很快就能看到投资回报。与通用机器学习平台相比,用于开始训练高性能检查模型的已加标签图像数量减少了多达 300 倍,事实证明,准确率可提高多达 10 倍。即使没有技术专业知识,您也可以训练模型,并且这些模型在本地运行。最棒的是,这些模型可以随着来自工厂车间的数据流不断刷新,从而在您发现新的应用场景时提高准确性。
Visual Inspection AI 在每一步都经过了优化,因此设置起来十分简单,而且很快就能看到投资回报。与通用机器学习平台相比,用于开始训练高性能检查模型的已加标签图像数量减少了多达 300 倍,事实证明,准确率可提高多达 10 倍。即使没有技术专业知识,您也可以训练模型,并且这些模型在本地运行。最棒的是,这些模型可以随着来自工厂车间的数据流不断刷新,从而在您发现新的应用场景时提高准确性。
价格
Vision AI 定价方式 | 每个视觉产品都有一组价格不同的功能或处理器。如需了解详情,请查看详细的价格页面。 | ||
---|---|---|---|
免费层级 | 产品/服务 | 折扣价 | 详情 |
Vision API | 前 1,000 个单元 每月免费 |
| |
Document AI | 不适用 价格因处理器而异。 | 5,000,001+ 页 每月 Enterprise Document OCR 处理器 | |
Video Intelligence API | 前 1,000 分钟 每月免费 | 100,000+ 分钟 每月 | |
Vertex AI Vision | 不适用 价格因功能而异。 |
| |
Imagen - 多模态嵌入 |
|
| 0.0001 美元 每个图片输入 |
Imagen - 视觉标注 |
|
| 0.0015 美元 每张图片 |
Gemini Pro Vision |
Vision AI 定价方式
每个视觉产品都有一组价格不同的功能或处理器。如需了解详情,请查看详细的价格页面。
Imagen - 多模态嵌入
0.0001 美元
每个图片输入
Imagen - 视觉标注
0.0015 美元
每张图片