Video Intelligence API 可以使用 LABEL_DETECTION 功能来识别视频片段中出现的实体,并使用标签(标记)注释这些实体。此功能可识别对象、位置、活动、动物物种、产品等。
标签检测与对象跟踪不同。与对象跟踪不同,标签检测为整个框架提供标签(没有边界框)。
例如,如果某个视频中有一辆火车停在岔道口,则 Video Intelligence API 会返回“火车”、“运输”、“铁路岔道口”等标签。每个标签包括一个带有时区设定(时间戳)的时间段,用于表示实体相对于视频开始时的出现时间。每个注解还包含其他信息,包括实体 ID,您可以在 Google Knowledge Graph Search API 中使用该实体 ID 查找有关实体的更多信息。
返回的每个实体的 categoryEntities
字段中还可能包括关联的类别实体。例如,“Terier”实体标签的类别为“Dog”。类别实体具有层次结构。例如,根据层次结构,类别“狗”是类别“哺乳动物”的子级。如需查看 Video Intelligence 使用的常见类别实体的列表,请参阅 entry-level-categories.json。
分析可以按如下方式划分:
- 片段级别:
用户选择的视频片段可以通过为注解指定开始和结束的时间戳来指定分析(请参阅 VideoSegment)。然后在每个片段中标识实体并为其添加标签。如果未指定片段,则整个视频将被视为一个片段。 - 镜头级别:
在每个片段(或视频)中自动检测镜头(也称为场景)。然后在每个场景中标识实体并为其添加标签。如需了解详情,请参阅镜头变化检测 - 帧级别:
实体在每一帧中被标识和标记(每秒采样一帧)。
要检测视频中的标签,请调用 annotate
方法并在 features
字段中指定 LABEL_DETECTION
。
Video Intelligence API 可视化工具
查看 Video Intelligence API 可视化工具,了解此功能的实际应用情况。