動画の対ラベル分析

Video Intelligence API は、LABEL_DETECTION 機能を使用して動画映像に表示されるエンティティを識別し、それらのエンティティにラベル(タグ)でアノテーションを付けることができます。この機能は、物体、場所、活動、動物の種類、商品などを識別できます。

ラベル検出はオブジェクト トラッキングとは異なります。オブジェクト トラッキングとは異なり、ラベル検出ではフレーム全体(境界ボックスなし)にラベルを付けます。

たとえば、踏切を通過する列車の動画では、「train」、「transportation」、「railroad crossing」などのラベルが返されます。各ラベルには時間セグメントがあり、エンティティが検出された時点を、動画の先頭からの時間オフセット(タイムスタンプ)として示します。各アノテーションには、その他の追加情報も含まれます。たとえば、この中のエンティティ ID を使用すると、Google Knowledge Graph Search API でエンティティの詳細を確認できます。

返される各エンティティに、関連付けられたカテゴリ エンティティを示す categoryEntities フィールドが含まれる場合もあります。たとえば、「テリア」エンティティ ラベルには「犬」カテゴリが含まれます。カテゴリ エンティティには階層があります。たとえば、「犬」カテゴリは階層内の「動物」カテゴリの子になります。Video Intelligence で使用される共通カテゴリ エンティティの一覧については、entry-level-categories.json をご覧ください。

分析は次のように区分できます。

  • セグメント レベル:
    ユーザーが選択した動画セグメントを分析用に指定できます。このためには、アノテーションのために開始と終了のタイムスタンプを指定します(VideoSegment を参照)。その後、各セグメント内でエンティティが識別され、ラベル付けされます。セグメントが指定されていない場合は、動画全体が 1 つのセグメントとして扱われます。

  • ショットレベル:
    ショット(シーンとも呼ばれます)は、各セグメント(または動画)内で自動的に検出されます。その後、各シーン内でエンティティが識別され、ラベル付けされます。詳細については、ショット変更の検出をご覧ください。
  • フレームレベル:
    各エンティティがフレーム内で識別され、ラベル付けされます(1 秒あたり 1 フレームのサンプリング)。

動画のラベルを検出するには、annotateメソッドを呼び出して、[features] フィールドに LABEL_DETECTION を指定します。

動画のラベル分析ラベル検出のチュートリアルをご覧ください。

Video Intelligence API ビジュアライザ

Video Intelligence API ビジュアライザをご覧いただき、この機能の動作をご確認ください。