Video Intelligence API は、LABEL_DETECTION 機能を使用して動画映像に表示されるエンティティを識別し、それらのエンティティにラベル(タグ)でアノテーションを付けることができます。この機能は、物体、場所、活動、動物の種類、商品などを識別できます。
ラベル検出はオブジェクト トラッキングとは異なります。オブジェクト トラッキングとは異なり、ラベル検出ではフレーム全体(境界ボックスなし)にラベルを付けます。
たとえば、踏切を通過する列車の動画では、「train」、「transportation」、「railroad crossing」などのラベルが返されます。各ラベルには時間セグメントがあり、エンティティが検出された時点を、動画の先頭からの時間オフセット(タイムスタンプ)として示します。各アノテーションには、その他の追加情報も含まれます。たとえば、この中のエンティティ ID を使用すると、Google Knowledge Graph Search API でエンティティの詳細を確認できます。
返される各エンティティに、関連付けられたカテゴリ エンティティを示す categoryEntities
フィールドが含まれる場合もあります。たとえば、「テリア」エンティティ ラベルには「犬」カテゴリが含まれます。カテゴリ エンティティには階層があります。たとえば、「犬」カテゴリは階層内の「動物」カテゴリの子になります。Video Intelligence で使用される共通カテゴリ エンティティの一覧については、entry-level-categories.json をご覧ください。
分析は次のように区分できます。
- セグメント レベル:
ユーザーが選択した動画セグメントを分析用に指定できます。このためには、アノテーションのために開始と終了のタイムスタンプを指定します(VideoSegment を参照)。その後、各セグメント内でエンティティが識別され、ラベル付けされます。セグメントが指定されていない場合は、動画全体が 1 つのセグメントとして扱われます。 - ショットレベル:
ショット(シーンとも呼ばれます)は、各セグメント(または動画)内で自動的に検出されます。その後、各シーン内でエンティティが識別され、ラベル付けされます。詳細については、ショット変更の検出をご覧ください。 - フレームレベル:
各エンティティがフレーム内で識別され、ラベル付けされます(1 秒あたり 1 フレームのサンプリング)。
動画のラベルを検出するには、annotate
メソッドを呼び出して、[features
] フィールドに LABEL_DETECTION
を指定します。
動画のラベル分析とラベル検出のチュートリアルをご覧ください。
Video Intelligence API Visualizer
Video Intelligence API ビジュアライザをご覧いただき、この機能の動作をご確認ください。