このページは Cloud Translation API によって翻訳されました。

動画の対ラベル分析

Video Intelligence API は、LABEL_DETECTION 機能を使用して動画映像に表示されるエンティティを識別し、それらのエンティティにラベル（タグ）でアノテーションを付けることができます。この機能は、物体、場所、活動、動物の種類、商品などを識別できます。

ラベル検出はオブジェクトトラッキングとは異なります。オブジェクトトラッキングとは異なり、ラベル検出ではフレーム全体（境界ボックスなし）にラベルを付けます。

たとえば、踏切を通過する列車の動画では、「train」、「transportation」、「railroad crossing」などのラベルが返されます。各ラベルには時間セグメントがあり、エンティティが検出された時点を、動画の先頭からの時間オフセット（タイムスタンプ）として示します。各アノテーションには、その他の追加情報も含まれます。たとえば、この中のエンティティ ID を使用すると、Google Knowledge Graph Search API でエンティティの詳細を確認できます。

返される各エンティティに、関連付けられたカテゴリエンティティを示す categoryEntities フィールドが含まれる場合もあります。たとえば、「テリア」エンティティラベルには「犬」カテゴリが含まれます。カテゴリエンティティには階層があります。たとえば、「犬」カテゴリは階層内の「動物」カテゴリの子になります。Video Intelligence で使用される共通カテゴリエンティティの一覧については、entry-level-categories.json をご覧ください。

分析は次のように区分できます。

セグメントレベル:
ユーザーが選択した動画セグメントを分析用に指定できます。このためには、アノテーションのために開始と終了のタイムスタンプを指定します（VideoSegment を参照）。その後、各セグメント内でエンティティが識別され、ラベル付けされます。セグメントが指定されていない場合は、動画全体が 1 つのセグメントとして扱われます。
ショットレベル:
ショット（シーンとも呼ばれます）は、各セグメント（または動画）内で自動的に検出されます。その後、各シーン内でエンティティが識別され、ラベル付けされます。詳細については、ショット変更の検出をご覧ください。
フレームレベル:
各エンティティがフレーム内で識別され、ラベル付けされます（1 秒あたり 1 フレームのサンプリング）。

動画のラベルを検出するには、annotateメソッドを呼び出して、[features] フィールドに LABEL_DETECTION を指定します。

動画のラベル分析とラベル検出のチュートリアルをご覧ください。

Video Intelligence API Visualizer

Video Intelligence API ビジュアライザをご覧いただき、この機能の動作をご確認ください。