Video Intelligence API では、ラベルの検出機能を使用して動画映像に表示されるエンティティを識別し、これらのエンティティにラベル(タグ)を付けます。この機能では、物体、場所、活動、動物の種類、商品などを識別します。
ラベル検出はオブジェクト トラッキングとは異なります。オブジェクト トラッキングとは異なり、ラベル検出ではフレーム全体(境界ボックスなし)にラベルを付けます。
たとえば、踏切を通過する列車の動画では、「train」、「transportation」、「railroad crossing」などのラベルが返されます。各ラベルには時間セグメントがあり、エンティティが検出された時点を、動画の先頭からの時間オフセット(タイムスタンプ)として示します。各アノテーションには、その他の追加情報も含まれます。たとえば、この中のエンティティ ID を使用すると、Google Knowledge Graph Search API でエンティティの詳細を確認できます。
返される各エンティティに、関連付けられたカテゴリ エンティティを示す categoryEntities
フィールドが含まれる場合もあります。たとえば、「テリア」エンティティ ラベルには「犬」カテゴリが含まれます。カテゴリ エンティティには階層があります。たとえば、「犬」カテゴリは階層内の「動物」カテゴリの子になります。Video Intelligence で使用される共通カテゴリ エンティティの一覧については、entry-level-categories.json をご覧ください。
分析は次のように区分できます。
- セグメントレベル:
ユーザーが選択した動画のセグメントは、アノテーション用に開始タイムスタンプと終了タイムスタンプを指定して分析できます(VideoSegmentを参照)。各セグメント内でエンティティが識別され、ラベルが付けられます。セグメントが指定されていない場合は、動画全体が 1 つのセグメントとして扱われます。 - ショットレベル:
ショット(シーンとも呼ばれます)は、すべてのセグメント(または動画)内で自動的に検出されます。各シーン内でエンティティが識別され、ラベルが付けられます。詳細については、ショット変更の検出をご覧ください。 - フレームレベル:
各エンティティがフレーム内で識別され、ラベル付けされます(1 秒あたり 1 フレームのサンプリング)。
動画のラベルを検出するには、annotate
メソッドを呼び出して、[features
] フィールドに LABEL_DETECTION
を指定します。
例については、動画のラベル分析とラベル検出のチュートリアルをご覧ください。