功能列表

借助 Vision API，您目前可以使用以下特征：

所有特征类型
文本检测	图片的光学字符识别 (OCR)；文本识别和机器编码文本转换。识别并提取图片中的 UTF-8 文本。图片：已针对较大图片中的稀疏文本区域进行优化。响应：返回通过文本、边界框和 `textAnnotations` 识别的字词列表，以及 OCR 检测到的文本的结构层次 (`fullTextAnnotation`) 列表。提取的文本结构的层次结构： TextAnnotation -> 页面 -> 块 -> 段落 -> 字词 -> 符号。页面中的每个结构组件都可以进一步包含各自的属性，例如检测到的语言、换行等等。支持的语言：支持目前受支持的语言、映射的语言和实验性语言。特征枚举值：`TEXT_DETECTION`。
文档文本检测（密集文本/手写）	文件 (PDF/TIFF) 或密集文本图片的光学字符识别 (OCR)；密集文本识别和机器编码文本转换。文件：已针对文档文件 (PDF/TIFF) 进行优化。图片：已针对图片（文档图片）中的密集文本区域以及包含手写内容的图片进行优化。响应：返回用 OCR 检测到的文本 (`fullTextAnnotation`) 的结构性层次结构。提取的文本结构的层次结构： TextAnnotation -> 页面 -> 块 -> 段落 -> 字词 -> 符号。页面中的每个结构组件都可以进一步包含各自的属性，例如检测到的语言、换行等等。支持的语言：支持目前受支持的语言、映射的语言和实验性语言。特征枚举值：`DOCUMENT_TEXT_DETECTION`。在请求 `DOCUMENT_TEXT_DETECTION` 和 `TEXT_DETECTION` 时优先考虑。如果您要检测扫描文档中的文本，请尝试使用 Document AI 进行光学字符识别、结构化表单解析和实体提取。您可以使用 Document AI 工具箱将输出从 Document AI 格式转换为 Cloud Vision 格式。
地标检测 ¹	在地标图片中提供地标的名称、置信度分数和边界框。提供检测到的实体的坐标。
徽标检测 ²	提供识别到的实体的文本描述、置信度分数以及文件中徽标的边界多边形。
标签检测 ³	提供图片的通用化标签。对于每个标签，系统会返回文本描述、置信度分数和话题性分数。
图片属性 ⁴	返回图片中的主色。每种颜色以 RGBA 颜色空间表示，具有置信度分数，并且会显示该颜色占据的像素比例 [0, 1]。
对象本地化 ⁵	为在单个图片中识别出的多个对象提供常规标签和边界框注释。对于检测到的每个对象，系统会返回以下元素：文本描述、置信度分数以及该对象的边界多边形的规范化顶点 [0,1]。需要自定义对象检测？利用 AutoML Vision 对象检测，您可以针对特定的图片对象使用场景创建自定义机器学习模型。
剪裁提示检测 ⁶	为每个请求提供剪裁后图片的边界多边形、置信度分数以及此重要区域相对于原始图片的重要性比例。您可以为单个图片最多提供 16 个图片比例值（宽高比）。
Web 实体和页面 ⁷	提供一系列与图片相关的 Web 内容。返回以下信息：网络实体：根据网络上的类似图片推断出的实体（标签/说明）。完全匹配的图片：互联网上任意尺寸的完全匹配图片的网址列表。部分匹配的图片：具有共同关键特征（例如剪裁后的原始图片）的图片的网址列表。具有匹配图片的页面：具有满足上述条件的图片的网页（由网页网址、网页标题、匹配的图片网址标识）列表。外观类似的图片：与原始图片具有某些共同特征的图片的网址列表。最佳猜测标签：对根据互联网上类似图片推断出的所请求图片主题的最佳猜测。
露骨内容检测（安全搜索）	提供以下露骨内容类别的似然度评分：`adult`、`spoof`、`medical`、`violence` 和 `racy`。似然度评分表示为 6 个不同的值：`UNKNOWN`、`VERY_UNLIKELY`、`UNLIKELY`、`POSSIBLE`、`LIKELY` 或 `VERY_LIKELY`。
人脸检测	使用边界多边形定位脸部，并识别具体的面部“特征”（例如眼睛、耳朵、鼻子、嘴巴等）以及相应的置信度值。返回情绪（喜悦、悲伤、愤怒、惊喜）和常规图片属性（曝光不足、模糊处理、存在头饰）的似然度评分。似然度评分表示为 6 个不同的值：`UNKNOWN`、`VERY_UNLIKELY`、`UNLIKELY`、`POSSIBLE`、`LIKELY` 或 `VERY_LIKELY`。不支持特定个人面部识别。