Video Intelligence API는 LABEL_DETECTION 기능을 사용하여 동영상에 표시된 항목을 식별하고 라벨(태그)을 사용하여 이러한 항목에 주석을 작성할 수 있습니다. 이 기능은 객체, 위치, 활동, 동물 종, 제품 등을 식별합니다.
라벨 인식은 객체 추적과 다릅니다.
객체 추적과 달리 라벨 인식은 경계 상자 없이 전체 프레임에 대한 라벨을 제공합니다.
예를 들어 건널목에 있는 열차 동영상의 경우 Video Intelligence API가 '열차', '운송', '철도 건널목' 등과 같은 라벨을 반환합니다. 각 라벨에는 개체가 등장하는 시간을 동영상의 시작 부분으로 하여, 시간 오프셋(타임스탬프)을 나타내는 시간 세그먼트가 포함됩니다.
또한 각 주석에는 Google Knowledge Graph Search API에서 개체에 대한 추가 정보를 검색하는 데 사용할 수 있는 개체 ID와 같은 추가 개체 정보가 포함되어 있습니다.
반환된 각 개체는 categoryEntities 필드에 연결된 카테고리 개체를 포함할 수도 있습니다. 예를 들어 'Terrier' 항목 라벨은 'Dog' 카테고리를 갖습니다. 카테고리 개체에는 계층 구조가 있습니다. 예를 들어 'Dog' 카테고리는 계층 구조에서 'Mammal' 카테고리의 하위 항목입니다. Video Intelligence가 사용하는 일반적인 카테고리 개체 목록은 entry-level-categories.json을 참조하세요.
분석을 다음과 같이 구획화할 수 있습니다.
세그먼트 수준: 주석 목적에 따라 시작 및 종료 타임스탬프를 규정하여 사용자가 선택한 동영상 세그먼트를 분석하도록 지정할 수 있습니다(VideoSegment 참조).
그런 후 항목이 식별되고 각 세그먼트 내에서 라벨로 지정됩니다. 세그먼트를 지정하지 않으면 전체 동영상이 하나의 세그먼트로 취급됩니다.
장면 수준: 장면(장면(scene)이라고도 부름)이 모든 세그먼트(또는 동영상) 내에서 자동으로 감지됩니다. 그런 후 항목이 식별되고 각 장면 내에서 라벨로 지정됩니다. 자세한 내용은 장면 변화 감지를 참조하세요.
프레임 수준: 각 프레임 내에서 항목이 식별되고 라벨로 지정됩니다(초당 1프레임 샘플링).
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-08-17(UTC)"],[],[],null,["# Analyze videos for labels\n\nThe Video Intelligence API can identify entities shown in video footage\nusing the [LABEL_DETECTION](/video-intelligence/docs/reference/rest/v1/videos/annotate#feature)\nfeature and annotate these entities with labels (tags). This feature identifies\nobjects, locations, activities, animal species, products, and more.\n\nLabel detection differs from [Object tracking](/video-intelligence/docs/object-tracking).\nUnlike object tracking, label detection provides labels for the entire frame\n(without bounding boxes).\n\nFor example, for a video of a train at a crossing, the Video Intelligence API\nreturns labels such as \"train\", \"transportation\", \"railroad crossing\",\nand so on. Each label includes a time segment with the time offset (timestamp)\nfor the entity's appearance from the beginning of the video.\nEach annotation also contains additional information including an entity\nid that you can use to find more information about the\nentity in the [Google Knowledge Graph Search API](https://developers.google.com/knowledge-graph/).\n\nEach entity returned can also include associated\ncategory entities in the `categoryEntities` field. For example the\n\"Terrier\" entity label has a category of \"Dog\". Category entities have a\nhierarchy. For example, the \"Dog\" category is a child of the \"Mammal\"\ncategory in the hierarchy. For a list of the common category entities that the\nVideo Intelligence uses, see\n[entry-level-categories.json](/static/video-intelligence/docs/entry-level-categories.json).\n\nThe analysis can be compartmentalized as follows:\n\n- Segment level: \n User-selected segments of a video can be specified for analysis by stipulating beginning and ending timestamps for the purposes of annotation (see [VideoSegment](/video-intelligence/docs/reference/rest/v1/videos/annotate#videosegment)). Entities are then identified and labeled within each segment. If no segments are specified, the whole video is treated as one segment.\n\n \u003cbr /\u003e\n\n \u003cbr /\u003e\n\n- Shot level: \n Shots (also known as a *scene* ) are automatically detected within every segment (or video). Entities are then identified and labeled within each scene. For details, see [Shot change detection](#shot-change)\n- Frame level: \n Entities are identified and labeled within each frame (with one frame per second sampling).\n\n\u003cbr /\u003e\n\nTo detect labels in a video, call the\n[`annotate`](/video-intelligence/docs/reference/rest/v1/videos/annotate)\nmethod and specify\n[`LABEL_DETECTION`](/video-intelligence/docs/reference/rest/v1/videos#Feature)\nin the `features` field.\n\nSee\n[Analyzing Videos for Labels](/video-intelligence/docs/analyze-labels) and\n[Label Detection Tutorial](/video-intelligence/docs/label-tutorial).\n\nVideo Intelligence API Visualizer\n=================================\n\nCheck out the [Video Intelligence API visualizer](https://zackakil.github.io/video-intelligence-api-visualiser/#Label%20Detection) to see this feature in action."]]